Citationsanalyse & Automatisk Klassifikation

Størrelse: px
Starte visningen fra side:

Download "Citationsanalyse & Automatisk Klassifikation"

Transkript

1 Det Informationsvidenskabelige Akademi Københavns Universitet, det Humanistiske Faktultet Bachelor Projekt Citationsanalyse & Automatisk Klassifikation Af: Heidi S. Larsen Asbjørn Dahl Vejleder: Toine Bogers Antal ord: maj 2013

2 2

3 Abstract Introduction This dissertation is a feasibility study of automatic classification of citations in theory and practice. It is a critical assessment of the potential use of automatic classification in the different application areas of bibliometrics. Method A experiment was performed in automatic classification of 1213 references in 41 articles from the journal Information Research. This serves as a proof of concept, in order to evaluate the practical foundation for performing automated classifications of citations using machine learning. Analysis We discuss the theoretical use of results from automatic classification of citations in the different application areas of bibliometrics. We discuss the validity of such results from the perspective of classification theory. Results There are non-trivial problems with assigning an unbiased classification scheme as the foundation for automatic classification. This is a problem in the area of research evaluation. There is potential in using automatic classification to improve information retrieval in citation indexes and to study science as a social network in greater detail. Conclusion We conclude that there are several areas of citation analysis in which automatic classification of citations could prove beneficial. But there are still a need for further technical developments in the processing of text and preliminary studies in classification schemes for citation types. 3

4 4

5 Indhold 1 Introduktion Problemformulering & Arbejdsspørgsmål Tidligere studier Citationsanalysens metoder Citationstyper Automatiske indholdsanalyser Metode & Fremgangsmåde Eksperiment design Udførelsen af eksperimentet Eksperimentets præstationer Mål for konsensus Analyse af eksperimentet Konsensus i klassifikationen Datagrundlaget Bibliometriens anvendelsesområder Forskningsevaluering Videnskabsstudier Informationssøgning og genfinding Klassifikationssystemer Klassifikationsteori Kategoriseringsmuligheder Behovet for citationsteori Et fornyet behov Konklusion Fremtidige studier & Perspektivering 47 Appendices 52 Bilag A Oversigt over citationstyper 52 Bilag B Spørgeskemaer 53 5

6 6

7 Figurer 1 Venn diagram over de seks studiers kategorisering af citationer efter: A) Referencens anvendelse, B) Holdning til referencen og/eller C) Graden af indflydelse Et teoretisk fundament for forståelsen af citationer (Zhang and Milojevic, in press) Diagram over eksperimentets struktur Eksempel af resultater fra Scikit Learns Support Vector Machine algoritme knn algoritmens perfomances over positive citationer knn algoritmens perfomances over neutrale citationer knn algoritmens perfomances over negative citationer Forskellige roller i forskningsprocessen (Reuters, 2009) Oversigt over studier i citationstyper, samt typerne benyttet i disse studier Indledende tekst i online spørgeskema Eksempel på opsætning af online spørgeskema

8 8

9 1 Introduktion Bibliometrien er et felt der gennem hele sin udvikling har været stærkt underlagt beskaffenheden af sit datagrundlag. Disciplinens tidligste navn statistisk bibliografi, afspejler det tætte forhold til de første datasæt; de akademiske bibliotekers lister over udgivelser (Wittig, 1978). Disse bibliografier over videnskabelige tidsskrifter eller tidsskriftsartikler, skabte grundlag for de tidligste publikationsstudier. Først som et værktøj for bibliotekaren, til at identificere relevant eller central litteratur til deres samlinger siden som en metode til at at opnå dybere indsigt i videnskabernes struktur. Her står opdagelsen af den videnskabelige litteraturs eksponentielle vækst af Derek J. De Solla Price (1963), som en af de mindeværdige tidlige publikationsanalytiske studier. I de dage var analyser af citationsmønstre en møjsommelig og tidskrævende affære. De skulle udføres i hånden, og samtlige publikationer involveret i analysen skulle lokaliseres, hentes hjem og litteraturlisten gemmengåes. Selv et lille studie kunne være omstændigt at holde rede på. Der skulle en udvikling i data materialet til for at disciplinen kunne bevægede sig fremad. Denne udvikling kom i form af Eugene Garfields (1964) Science Citation Index allerede i Garfield samlede og indekserede kildelisterne i en stor mængde videnskabeliglitteratur og gjorde det der ved muligt at udføre studier af forskere citationsmønstre langt hurtigere og i et langt større omfang end tidligere. Igen i 1990 erne var udvikling i tilgængelig data instrumentel i dannelse af nye områder i det bibliometriske landskab. Udbredelsen af internettet fordrede anvendelsen af den bibliometriske værktøjskasse på dette nye medie og derved så felterne webo- eller cybermetri dagens lys. (Almind and Ingwersen, 1997) Som disse felter har vokset til modne, er der i disse år en indsats for at inkorporer data fra internettet i kvantitativ forskningsanalyse. Dette er bedst illustreret med Altmetrics bevægelsen, der søger at observere forskeres kommunikation og adfærd på nettet formel som uformel med det udgangspunkt at dette vil give en dybere indsigt end de klassiske bibliometriske metoder (Priem et al., 2010). De omvæltninger bibliometrien, sammen med alle andre datadrevne felter, har oplevet med det digitale gennembrud er dog først lige begyndt. Under paroler som Big Data varsler forskere fra datalogien, kognitiv videnskab og andre dataforskere at udviklingen i databehandlingsteknikker vil revolutionere nærmest alle fagområder. Med bibliometriens affinitet for ny data og nye analyseværktøjer er der god grund til at stille skarpt på perspektiverne og faldgrupperne ved datavidenskabens landvindinger. Her er især maskinlæringstekninkker interessante med bibliometriske briller; Bibliometriens datagrundlag, videnskabeligt kommunikation, er teksttuelt af natur. I undersøgelser af den videnskabelige litteratur har bibliometrien måtte forlade sig med at undersøge denne kommunikation per stedfortræder. Man har optalt forekomster i kildefortegnelser og udgivelseslister, for at drage 9

10 konklusioner om videnskaben. Indtil nu har bibliometri været begrænset til disse kommunikative artefakter, og det har været overladt til de kvalitative studier at bore i selve det teksttuelle indhold. Det er her maskinlæring og bibliometri syntes som et oplagt match. Maskinlæring giver muligheder for statistisk og automatisk at vurdere semantiske sammenhænge i store mængder af tekst. Dette kunne åbne dokumenterne op for bibliometriens metoder, ved at muliggøre analyser der kigger dybere end de strukturerne citationer tegner, og åbne op for den videnskabelige kommunikations indhold. Men har bibliometrien behov for rigere data, og vil metoder importeret datavidenskaben nødvendigvis resultere i relevant og givende indsigt? Vi arbejder begge med bibliometri til daglig og er både håbefulde og skeptiske over for eventuelle nyudviklinger. Håbefulde fordi bibliometrien har nogle fundamentale svagheder, vi gerne så løst, og skeptiske fordi vi har oplevet en tendens til at bruge bibliometrien ukritisk og fx måle hvad der kan måles frem for hvad der er validt. Vi vil med denne opgave foretage en forundersøgelse af automatisk klassifikation af citationer som metode for bibliometrien. Vores undersøgelse er designet til at give et overblik over de primære problemstillinger ved automatisk klassifikation af citationer. Formålet er at identificere de problemer, der kan forhindre metoden i at være gangbar inden for bibliometri og finde frem til de tilfælde, hvor det giver mening at benytte automatisk klassifikation af citationer. Vi har indbygget et eksperiment, hvor vi udfører en klassificering af citationer vha. maskinlæring. Dette eksperiment er en gennemførlighedsundersøgelse. Vi bruger eksperimentet som et kvalitativt værktøj til at vurdere metodens tekniske og praktiske forhindringer. Vi vil teste præcisionen af metoden, for at kunne afgøre, hvorvidt metoden fungerede efter hensigten, men eksperimentet er ikke en teknisk analyse af, hvorvidt automatisk klassifikation virker. Derimod en demonstration af de ikke-trivielle beslutninger, der skal tages for at kunne gennemføre et studie vha. automatisk kategorisering af citationer. Dernæst ser vi på hvilken anvendelse automatisk klassifikation af citationer kan finde i praksis, altså hvilket videnshul i bibliometriske studier automatisk klassifikation passer ind i. Vi søger at afklare de teoretiske problemstillinger og faldgruber ved at adoptere teknikker til automatisk kategorisering af citationer. Til sidst bruger vi denne viden om disse styrker og svagheder ved metoden til at vurdere udsigterne til succes med automatisk klassifikation inden for bibliometriens anvendelsesområder. 1.1 Problemformulering & Arbejdsspørgsmål Vores undersøgelse vil tage afsæt i følgende arbejdsspørgsmål, et hovedspørgsmål og to delspørgsmål der hver udspecificerer et relevant element af den overordnede problemstilling: 10

11 HS I hvilken udstrækning kan automatisk kategorisering anvendes i citationsanalyse? DS1 Hvad er de teknologiske og praktiske barrierer for brugen af automatisk kategorisering af citationer? DS2 Hvad er perspektiverne for ny viden/indsigt ved anvendelsen af automatisk kategorisering som metode for bibliometrien? De overordnede arbejdsspørgsmål for denne undersøgelse fordrer den række delspørgsmål og dispositioner, der må behandles før det overordnede problem kan løses. Når vi ønsker at besvare i hvilken udstrækning automatiske teknikker kan anvendes i udførelsen af citationsanalyse, forsøger vi at løfte problemstillingen over en ret teknisk problematik. Undersøgelse er altså ikke en øvelse i selv at udføre den bedst mulige automatiske kategorisering af bibliografisk data, men derimod at vurdere, fra bibliometrikerens synspunkt, hvad maskinlæring kan bidrage med til den fremtidige citationsanalytiske forskning. Der er to linjer i denne problemstilling, der skal vurderes: Det tekniske fundament og det teoretiske fundament. Bibliometrikere er afhængige af de værktøjer, der udvikles og i bibliometrien er det traditionelt de metoder, der er lette at udføre, som vinder indpas. For at vurdere i hvilken udstrækning kategorisering kan anvendes er det derfor også vigtigt at tage højde for praktiske anvendelighed. Den form for maskinlæring, vi har afgrænser os til i denne opgave, bygger derfor en den mest ligetil tilgang. En række tekniske forudsætninger skal være til stede, for at kunne udføre et sådant studie vha. automatisk klassifikation. Til det tekniske følger spørgsmål som: Er der data tilrådighed, og med hvor stort omfang kan citationsanalytiske studier udføres med denne data?; Er tekst stykkerne omkring en citation umiddelbart tilstrækkelige til at opnå høj præcision og recall i klassifikation?; Og, kan mennesker klassificere citationer konsistent? Det teoretiske element i undersøgelsen er vigtigt for at kunne vurdere gyldigheden og hvilken ny indsigt der kan opnås ved brug de datalogiske metoder. Med maskinlæring kan man generelt opnå gode resultater i klassificering af en række forskelligt tekstmateriale, et væld af forskellige algoritmer og metoder til at finpudse perfomances er til rådighed. En sikker automatisk kategorisering er ikke alene nok for at opnå bibliometiske resultater, altså kunne bruge resultaterne til at sige noget om videnskab. Tolkning af bibliometrisk data er afhængig af et afsæt i videnskabssociologien. Fra disciplinens tidligste dage har spørgsmålet om hvorfor og hvordan forskere citater været grundlæggende for gyldigheden af bibliometiske konklusioner. Ved at forlige sig med at en citation, udover alle tænkelige bagtanker og dispositioner, i samtlige instanser fortæller at en kilde har ydet indflydelse 11

12 eller impact, kan man ved akkumulerede citationer deducere en forskers autoritet og topografien af et videnskabeligt felt. Især med ekspert viden om et felt er det muligt af analysere et felt dybere, dog er det hurtigt let at indføre bias når der afgrænses data og analyseres resultater. Et fremtrædende eksempel på en sådan fejlslutning er White (1998) kortlægning af informations videnskaben, hvor bibliometrien blev overrepræsenteret som felt på grund af problematiske udvælgelseskriterier af den bibliometriske data. Med deres baggrund i scientometri så White & McKain ikke noget problem i dette forhold, der dog blev kritiseret af informationsvidenskabelige forskere fra andre felter. Potentialet for fejlslutninger må antages at være betydeligt når man indfører en berigelse af citationsdataene inden udførelse af citationsanalyse. Her kan beslutninger taget af praktiske årsager, eller fordi de syntes non-trivielle, samt andre usikkerheder, influere resultaterne af bibliometriske studier på måder der vil være svære at identificere. Med dette i mente ser vi følgende delspørgsmål må illumineres for at kunne vurdere anvendeligheden af citationsanalyse beriget med automatisk kategorisering: Hvilke potentialer for anvendelse er der inde for bibliometriens tre hovedområder; forskningsevaluering, videnskabsstudier og informationssøgning og -genfinding?; Er der citationsteoretisk belæg for at udføre citationsanalystiske studier med beriget citationsdata?; Og, i hvilken udstrækning kan kategorier til citationer udvælges uden bias? 2 Tidligere studier I dette afsnit vil vi behandle tidligere forskning med relevans for vores undersøgelse. Afsnittet er delt i tre delafsnit; det første behandler de metoder bibliometrikere traditionelt har benyttet til citationsanalyse, metoder der ikke involverer berigelse af den bibliografiske data. Det andet delafsnit afdækker forskning der har beskæftiget sig med at identificere typer og kategorier af citationer. Tredje og sidste delafsnit vil præsentere studier, der udstikker retningslinjer for hvordan automatisk kategorisering kan benyttes en bibliometrisk eller citationsanalytisk sammenhæng. Formålet med de to første delafsnit er at opstille en kort gennemgang af den metodiske og teoretiske udvikling af den videnskabelige undersøgelse af citationer, for at give have solidt fundament til senere at analysere hvordan automatisk kategorisering passer ind i det bibliometriske univers. 2.1 Citationsanalysens metoder Udviklingen af den citationsanalystiske metode har hidtil hovedsageligt koncentreret sig om skabe tekniker til at tolke mønstrene i de bibliografiske data. Citationernes betydning, eller mening, er blevet undersøgt i citationsteoretiske studier, ofte udført på et simpel eller erfaringsbaseret empirisk grundlag. 12

13 Udmiddelbart giver rå citationstal ikke stor indsigt, de varierer i stor grad på tværs af vidensdomæner, hvilket gør tallene stort set meningsløse udenfor deres bibliografiske kontekst, og selv med en naiv tolkning udtømmes dataene hurtigt for interessante konklusioner. Et af de tidligste værktøjer i den citationsanalytiske værktøjskasse var indikatoreren. Indikatoren er en matematiskformel hvis resultat giver nye muligheder for tolkning af citationsdata. JIF eller journal impact factoren af Garfield (1964) til at udvælge tidsskrifter af interesse, er et simpelt overslag over et tidsskrifts balance mellem modtagne citationer i forhold til antallet af artikler i tidskriftet, og den måske det mest kendte både uden- og indenfor bibliometriske kredse. Indikatoren bliver alment brugt til at betegne et tidsskrifts indflydelse, og formår med en simpel, letforståelig formel at supplere citationsdata med større analytisk potentiale. En stor del af den bibliometiske forskning, helt fra disciplinens begyndelse til nu, er beskæftiget med at udvikle og forfine måde at aggregere citationsdata. Et andet populært eksempel på dette omfattende arbejde med indikatorer er H-indekset (Hirch, 2005) og kohorten af afledte indikatorer, hvis aftryk i den bibliometriske litteratur skal tælles i hundredvis af tidsskrifts artikler, og som bruges til at vurdere individuelle forskeres produktivitet og indflydelse. Andet iøjnefaldende arbejde med indikatorer er indførelsen er percentiler (Bornmann and Marx, 2013) eller andre gennemsnitlige mål, der forsøger at muliggøre sammenligning af citationsdata på tværs af videnskabelige fagområder. Desuden adresserer disse mål problemerne ved skæve fordelinger af citationer, der vanskeliggør statistisk behandling af bibliografisk data. En anden benyttet tilgang til at udvide tolkningsmulighederne af citationsdata er kort- eller netværksbaserede analyser. Med denne slags citatiosanalyse lægger tolkningen i de strukturer eller mønstre referencerne danner. Den tidligste brug af sådan et værktøj kan ses som udviklingen af co-citationsanalyse af Henry Small (1973). Kalkulen i co-citationsanalysen er at artikler der citeres i samme tekst må være emne mæssigt beslægtet. Udviklingen af både hardware og software har siden halvfemserne gjort det muligt at analysere og generere store netværk på baggrund af citationsdata, og indikatorer fra netværkvidenskaben, som centrality, har givet givet bibliometrikerne nye metoder til at visualisere, præsentere og analysere videnskaben som socialt netværk (Borner et al., 2003; Newman, 2009, pp.67 70). Fælles for de citationsanalytiske værktøjer præsenteret her er at de alle har citationsdata som input, og ved forskellige metodiske greb udfolder denne data så den kan tolkes og analyseres indenfor forskellige kontekster. Netværksanalyser er excellere i emne- eller sociologiske undersøgelser, indikatorer til brede kvantitative vurderinger. Dog finder udfoldelsen af analytisk potentiale af den bibliografiske data sted som en funktion på denne data, og datagrundlaget forbliver så og sige uberørt. Her adskiller automatisk kategorisering af citationsdata sig fundamentalt fra tidligere metoder i bibliometrien, idet der finder en berigelse af dataene sted, en berigelse der potentielt kan påvirke 13

14 resultaterne af alle de bibliometriske værktøjer. Indikatorer kan udvides til at tage højde for typen af citationer, klynger i citationsnetværk kan identificeres på grundlag af semantiske sammenhænge mellem forfatterne og ikke blot numerisk signifikans. 2.2 Citationstyper For at kunne klassificere citationer automatisk er det nødvendigt at forholde sig til hvilke typer af citationer, der forekommer. Bibliometrikere har længe diskuteret og søgt indsigt i, hvordan og hvorfor forskere citerer hinanden. Der er uenighed og dermed usikkerhed i, hvad det egentlig er, bibliometrien kan måle ved at tælle citationer (Bornmann and Daniel, 2008). Derfor blev det essentielt af forstå, hvordan forskere praktiserer det at citere. I forskningen fandt man det givende at begynde at skelne forskellige typer af citationer fra hinanden. Under betegnelsen citation context studies eller citation content analysis er der blevet forsket en del i forskeres citationsadfærd, altså hvordan eller i det hele taget om forskere citerer på bestemte måder. Det kan selvfølgelig undersøges på mange måder, de primære værende interviews med forskerne, surveys eller studier af hvordan referencer forekommer i forskeres kommunikation fx hvor mange gange en reference forekommer i en artikel og hvor i artiklen (indledning, konklusion, diskusion), referencen forekommer. Her vil vi fokusere på de studier, der ligesom automatisk klassifikation søger at afgøre spørgsmålet ved at tage fat i teksten omkring referencen. Dette afsnit beskriver de studier, der har arbejdet med at bestemme typer af citationer. Der bliver foretaget en kort gennemgang, og de lister af citationstyper, der ikke er gengivet i teksten, kan findes i bilag A. Eugene Garfield, grundlæggeren af Institute for Scientific Information (ISI) og moderne bibliometri, var den første, der systematiserede grundene til at forskere citerer. Det var netop en undersøgelse af om det ville give mening automatisk at klassificere citationer ud fra teksten omkring dem. Ud over mangel på data for at kunne foretage sådanne studier, påpeger Garfield også hvordan citationsadfærd er individuel som en forhindring. Fx gennem et studie, hvor en række af hans studerende bliver bedt om at tilføje referencer i en artikel, hvor der ikke er referencer tilknyttet. Det resulterer i vidt forskellige referencelister både i mængden af referencer, de studerende finder nødvendige og præcis hvor i teksten, de finder det nødvendigt med en reference. Alligevel mener han at kunne opstille en liste af de gængse grunde til at forskere vælger at citere hinanden: Paying homage to pioneers. Giving credit for related work (homage to peers). Identifying methodology, equipment, etc. 14

15 Providing background reading. Correcting one s own work. Corrrecting the work of others. Criticizing previous work. Substantiating claims. Alerting to forthcoming work. Providing leads to poorly disseminated, poorly indexed, or uncited work. Authenciating data and classes of fact (physical constants, etc.) Identifying original publications in which an idea or concepts was discussed. Identifying original publications or other work describing an eponymic concept or term (... ) Disclaiming work or ideas of others (negative claims) Disputing priority claims of others (negative homage) (Garfield, 1965) Negative årsager til en citation er fremtrædende på listen, men Garfield undersøgte aldrig frekvensen af disse grunde eller om nogle af grundene var mere fremtrædende end andre. Listen er ikke blevet operationaliseret og appliceret i empiriske studier, men blev forløberen for mange empiriske forsøg på at kategorisere citationer. I løbet af 1970 erne ledte en række studier til at bibliometrien empirisk fik indblik i forekomsten og anvendelsen af citationer. Moravcsic and Murugesan (1975) arbejdede med at afgøre graden af indflydelse, som den refererede artikel havde på forskerens arbejde. De opdagede en stor overvægt af overflødige citationer, hvilket Chubin and Moitra (1975) prøvede at gøre op for ved at ændre i taksonomien af deres kategorisering. For Oppenheim and Renn (1977) er citationstyperne et led i en større analyse af, hvor bredt videnskabsstudier bliver anvendt. Oppenheim and Renn (1978) undersøgte hvorfor artikler af en vis alder bliver ved med at modtage citationer og om grundene til at de bliver citeret ændrer sig over tid. Frost (1979) arbejder inden for et humanistisk felt og vil gerne undersøge om forskere inden for humanisme afhænger mindre af empiri end andre videnskaber. For alle studiers vedkommende er det ikke en undersøgelse af selve citationstyperne, der er i centrum. Citationstyperne og kategoriseringen er 15

16 blot noget, der operationaliseres for at nå frem til de slutninger, de søger. Det ses i beskrivelsen af metoden til hvordan fx Oppenheim and Renn (1977) kom frem til kategoriseringen: I tried to reduce subjectivity of classification by using simple and straightforward categories, drawing on the formulations of the authors themselves rather than on an abstract, logically tight, a-priori categorization system Dette illustrerer problemet ved flere af de kategoriseringer, der er fortaget af citationstyper, idet at manglen på systematik uundgåeligt vil føre til bias, når der ikke opstilles kriterier for kategorisering. Det lægger op af en antagelse af at kategorierne er naturgivne og ikke et resultat af menneskelig bearbejdning og fortolkning. De fleste studier foregiver at undersøge anvendelsen af citationer, men bygger konklusionerne på antagelser om, hvordan videnskab foregår. Igen fylder forekomsten af negative citationer meget idet de er repræsenteret i størstedelen af studierne. Moravcsic and Murugesan (1975) identificerer dem med kategoriseringen confirmative or negational. Træstrukturen fra Chubin and Moitra (1975), hvor det første led er valget mellem affirmative og negational, gør at systematikken kan ses som en (ujævn) skala over positive og negative citationer. Oppenheim and Renn (1977) forholder sig også til om holdningen til det citerede er positiv/negativ. Frost (1979) er interesseret i om citationen bliver brugt til at støtte op om fakta eller holdning, men inddrager også om forskeren forholder sig positivt eller negativt til det, der citeres. I resultaterne er forekomsten af negative citationer forsvindende lille og varierende på tværs af studierne (mellem 1 og 14%). Som Cronin (1984) noterede er studier af citationstyper trods mange ligheder ikke del af et samlet forskningsarbejde men enkeltstående studier der søger at løse problemer inden for alt fra information retrieval til citationsforskelle mellem videnskaber. De har dog det til fælles at de søger at løse disse forskelligartede problemer ved at undersøge naturen af de sammenhænge, der opstår gennem citationer og for at gøre dette benytter de sig alle af at klassificere citationerne ud fra analyse af måden, der bliver citeret på, som det fremgår af forskningsartiklerne. Resultatet er en lang række af taksonomier og klassifikationer, der varierer alt efter, hvad studiet søger at efterprøve. I figur 1 ses et Venn diagram hvor flere af disse studier er systematiseret efter, hvad deres kategoriseringer kan bruges til at undersøge. Der er en del sammenfald i, hvad de vælger at medtage i deres kategorisering. Næsten alle har som beskrevet forholdt sig til forfatteres forskellige dispositioner: om de anerkender eller misbilliger indholdet, der refereres. Det er dog forskelligt, hvordan de tre aspekter af en citation vægtes i kategoriseringen, alt efter hvor specialiseret kategoriseringen er. Hos Lipetz (1965) er det primært dispositionen, altså hvordan forfatteren forholder sig til det refererede, som gerne skulle kunne bestemmes af kategoriseringen, men det 16

17 Figur 1: Venn diagram over de seks studiers kategorisering af citationer efter: A) Referencens anvendelse, B) Holdning til referencen og/eller C) Graden af indflydelse. afgøres ved at se på, hvordan referencen anvendes i teksten (fx applied, noted eller questioned). Detaljeringsgraden, altså mængden af underkategorier, fx præcis hvordan citationen anvendes, adskiller sig således studierne i mellem. Der er studier, hvor aspekter er meget udspecificeret, men som andre slet ikke forholder sig til. De mangler klart hierarkiske systematiseringer og beskrivelser, således at systematikkerne kan sammenlignes på tværs af studier. Disse kategoriseringer er begrænset af deres omfang og deres fokus på specifikke problemstillinger. Der er et større arbejde i at skulle finde kategoriseringer, der kan gælde generelt. Alle disse studier vurderer at det er muligt at tildele deres kategorier ud fra læsning af teksten, men angiver den arbejdstunge byrde i at klassificere hver citation som grunden til at deres arbejde ikke bliver videreudviklet. Her skulle automatisk klassifikation gerne udvide mulighederne for, hvor meget data, altså citationer, det er realistisk at behandle. 17

18 2.3 Automatiske indholdsanalyser I det forrige delafsnit gennemgik vi det mangfoldige arbejde med at finde et dækkende kategoriseringssystem over citationstyper. I dette vil vi dette delafsnit behandle den forskning der går praktisk til automatisk kategorisering. Først udlægger vi kort hvordan den informationsvidenskabelige tilgang til har været, og dernæst identificerer vi nogle studier fra datalogien, der er relevante for denne undersøgelse. Til slut påpeger vi nødvendigheden for afklaring i, hvad automatisk klassifikation kan og ikke kan anvendes til at undersøge. Begrebet citation content analysis har været benyttet af bibliometrikere siden 1980 erne, og dækker over forskning der behandler og analyserer citationers indhold. Meget af arbejdet i dette felt har dog, som andet arbejde med citationstyper indenfor bibliometrien og informationsvidenskaben, hovedsagligt været teoretisk eller empirisk undersøgende. I bibliometrisk regi har der ikke endnu været noget samlet indsats i af udføre automatisk kategoricering eller indholdsanalyse af citationer i større omfang. White (2004), der er bibliometriker, bemærker at: There is more promising line of analysis in informations science than the labour-intesive classification of implicit citation features just described. That is interpretation of explicit words in citation context as detected by computer (or very patient human beings). White forfølger dog ikke selv denne lovende metode, og forholder sig kun kort til hvordan en sådan analyse skulle udføres. Det er værd at bide mærke i at White ser en forskel mellem indholdsanalyse af citationer udført med computer og det han beskriver som labour-intesive classification. Med denne term mener White de studier der har søgt at kortlægge forkomsten af citationstyper i litteraturen, altså identificere hvilke typer af referencer der konkret forekommer og som vi gennemgik i foregående afsnit. Det er uklart hvordan White mener at computere skal bidrage til at identificere citationstyper. Maskinlæringsteknikker vil have behov for prækategoriseret data og kan derfor kun fremskrive klassifikationer til ikke-kategoriseret data på belæg af menneskers input. Om White hentyder til andre teknikker der kan udrede statistiske signifikante sammenhænge i tekst uden afsæt i menneskers input er uvist. Whites overfladiske behandling af de computationelle muligheder i indholdsanalyse af citationer, kan ses som et symptom på den generelle tilstand i den bibliometriske forskning. Her har videnskabssociologisk teori, statistiske metoder og andre værktøjer til at analysere den store mængde bibliografisk data tilrådighed været af primær interesse, og kun ganske få forskere i informationsvidenskaben og i særdeleshed bibliometrien har haft behov for at beskæftige sig dybere med værktøjer fra datalogien. Man er fra bibliometrien klar over potentialet i datavidenskabens metoder, men incitamentet til rigtigt 18

- hvilke mål indgår i begrebet usability? -

- hvilke mål indgår i begrebet usability? - - hvilke mål indgår i begrebet usability? - Udarbejdet af: Rasmus Jensen & Peter Larsen Vejledt af: Morten Hertzum, Datalogi Simon Heilesen, Kommunikation Integreret speciale, Interaktive Medier Roskilde

Læs mere

STUDERENDES INFORMATIONSADFÆRD PÅ KVINFOS BIBLIOTEK

STUDERENDES INFORMATIONSADFÆRD PÅ KVINFOS BIBLIOTEK STUDERENDES INFORMATIONSADFÆRD PÅ KVINFOS BIBLIOTEK VIBEKE RAFN DAHM AFGANGSPROJEKT MASTER I BIBLIOTEKS- OG INFORMATIONSVIDENSKAB MARTS 2010 VEJLEDER: PETER INGWERSEN ABSTRACT Dette afgangsprojekt undersøger

Læs mere

1. INDLEDNING... 3 3. TEORI... 4

1. INDLEDNING... 3 3. TEORI... 4 1. INDLEDNING... 3 1.1. EMNE... 3 1.2. PROBLEMFORMULERING... 4 1.2.1. Arbejdsspørgsmål... 4 2. FREMGANGSMÅDE... 4 3. TEORI... 4 3.1. INNOVATIONENS KARAKTERISTIKA... 4 3.2. LIVSVERDEN... 5 3.3. RELEVANS...

Læs mere

Informationspraksis omkring den akademiske opgave

Informationspraksis omkring den akademiske opgave 2011 Informationspraksis omkring den akademiske opgave Masterafhandling, Det Informationsvidenskabelige Akademi Vejleder: Trine Schreiber Maria Viftrup Schneider & Susanne Thrige Masterafhandling 3/23/2011

Læs mere

Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier.

Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier. Brugernes relevansvurderinger: Hvad påvirker dem? - En analyse af relevansbegrebet ud fra Ingwersens og Hjørlands teorier. Bacheloropgave Studerende: Karina Øgendahl Hold: Hold 2, årgang 07 Vejleder: Mette

Læs mere

Business Intelligence & bibliotekarprofessionen: iagttagelse og selviagttagelse

Business Intelligence & bibliotekarprofessionen: iagttagelse og selviagttagelse Speciale 2008-2009 Danmarks Biblioteksskole, København Business Intelligence & bibliotekarprofessionen: Udarbejdet af Thea Graabæk Knudsen & Kasper Nordhoek Johansen Vejleder Hans Elbeshausen Antal normalsider:

Læs mere

Copenhagen Games -Et produkt med muligheder?

Copenhagen Games -Et produkt med muligheder? Copenhagen Games -Et produkt med muligheder? RUC, Sambas Gruppe, 7: 2. semester, 2012 Bo Jul Jeppesen Hus: 20.1 Rasmus Stampe Skovgaard Vejleder: Niels Nolsoe Grünbaum Jakob Aaberg Lauridsen Emil Gede

Læs mere

FORUDSÆTNINGER FOR LEAN

FORUDSÆTNINGER FOR LEAN FORSVARSAKADEMIET Institut for Ledelse og Organisation VUT II/L STK 212/213 Kaptajnløjtnant Gustavas Mordvinukas FORUDSÆTNINGER FOR LEAN Maj 213 I DET DANSKE FORSVAR Omfang: 14.465 ord 1 Abstract The paper

Læs mere

En analyse af brand extension der tager udgangspunkt i eksisterende teori samt

En analyse af brand extension der tager udgangspunkt i eksisterende teori samt En analyse af brand extension der tager udgangspunkt i eksisterende teori samt Michael Dueholm og Frej Lehmann Nielsen. Kandidatafhandling 2010. udvalgt empiri, med henblik på, at opbygge brugbare værktøjer/modeller,

Læs mere

af Sarah Midtgård Grau

af Sarah Midtgård Grau Kandidatspeciale En kvalitativ undersøgelse om sygeplejerskers brug af kliniske retningslinjer og fremmende faktorer for anvendelsen af forskningsbaseret viden i praksis af Sarah Midtgård Grau Publikation

Læs mere

Christopher, Andreas og Christian VINOPERTEN. En elektronisk vinekspert. 2. semeterprojekt

Christopher, Andreas og Christian VINOPERTEN. En elektronisk vinekspert. 2. semeterprojekt VINOPERTEN En elektronisk vinekspert 2. semeterprojekt Christopher, Andreas og Christian Vinoperten Elektronisk Vinekspert Roskilde Universitet 2014 Humanistisk Teknologisk Basisstudium 2. semester Et

Læs mere

Abstract The approach to our project started with a common wonder of why the theory of project management do not tell anything about the variation,

Abstract The approach to our project started with a common wonder of why the theory of project management do not tell anything about the variation, Abstract The approach to our project started with a common wonder of why the theory of project management do not tell anything about the variation, in use of project management in relation to the classification

Læs mere

Et casestudie af brandet: copenhagen Open for you

Et casestudie af brandet: copenhagen Open for you 4. semester, maj 2010 Sam. Bas hus 19.1 Et casestudie af brandet: copenhagen Open for you Lasse Berg Mathias Alsted Flinck Morten Skøtt Jensen Simon Friis Mortensen Ditte Bloch Noer Nikolaj Træholt Vejleder:

Læs mere

ET SPØRGSMÅL OM TRIVSEL

ET SPØRGSMÅL OM TRIVSEL ET SPØRGSMÅL OM TRIVSEL - Et kvalitativt studie af trivsel blandt danske iværksættere af Louise Linnea Kron Virksomhedsstudier, CBIT Roskilde Universitet Afleveret: 28. April 2015 Antal anslag: 180127

Læs mere

Kvindens oplevelse af presseperioden. Udgivelsesinstitution: Jordemoderuddannelsen, University College Syddanmark, Esbjerg

Kvindens oplevelse af presseperioden. Udgivelsesinstitution: Jordemoderuddannelsen, University College Syddanmark, Esbjerg Dansk resumé Titel: Kvindens oplevelse af presseperioden Forfattere: Nina Angeline Nielo & Janni Beyer Pedersen Udgivelsesinstitution: Jordemoderuddannelsen, University College Syddanmark, Esbjerg Dato:

Læs mere

Redesign af by-expressen.dk

Redesign af by-expressen.dk Redesign af by-expressen.dk Informatik Roskilde Universitet 4. semester forår 2014 Vejleder: Kristin Due Holmegaard Jens Kristian Heesche Hansen, studienr. 50543 Kristian Eistorp, studienr. 50553 Magnus

Læs mere

INTERVIEWTEKNIKER... 11 FORUNDERSØGELSE... 15 UNDERSØGELSE... 18 KVALITATIV ANALYSE BASERET PÅ TÆNKTE HØJT METODE... 22

INTERVIEWTEKNIKER... 11 FORUNDERSØGELSE... 15 UNDERSØGELSE... 18 KVALITATIV ANALYSE BASERET PÅ TÆNKTE HØJT METODE... 22 Indhold FORORD... 3 INDLEDNING... 4 PROBLEMFELT... 4 PROBLEMFORMULERING... 5 AFGRÆSNING... 6 VIRKSOMHEDSBESKRIVELSE... 6 MÅLGRUPPE... 7 TEORI & ARBEJDSPROCES I PROJEKTET... 8 INTERNETKOMMUNIKATION... 9

Læs mere

INDHOLDSFORTEGNELSE... 1 1 INDLEDNING... 3 2 METODE OG VIDENSKABSTEORI... 8 3 WEB 2.0 OG WISDOM OF CROWDS...15 4 SEMANTIC SOFTWARE PÅ NETTET...

INDHOLDSFORTEGNELSE... 1 1 INDLEDNING... 3 2 METODE OG VIDENSKABSTEORI... 8 3 WEB 2.0 OG WISDOM OF CROWDS...15 4 SEMANTIC SOFTWARE PÅ NETTET... INDHOLDSFORTEGNELSE INDHOLDSFORTEGNELSE... 1 1 INDLEDNING... 3 1.1 KOMMUNIKATION UDEN GRÆNSER... 3 1.2 PROBLEMFELT... 4 1.3 LÆSEVEJLEDNING... 5 2 METODE OG VIDENSKABSTEORI... 8 2.1 ABDUKTIV VIDENSKAB...

Læs mere

Model til Eksplicitering af Brugerudvælgelse

Model til Eksplicitering af Brugerudvælgelse Model til Eksplicitering af Brugerudvælgelse Et speciale om udvælgelsen af deltagere til brugerinddragende it-projekter i organisationer Anders Sommer Christensen Rasmus Rasmussen Tobias Fjeldsted Roskilde

Læs mere

Gamification Et teoretisk orienteret speciale

Gamification Et teoretisk orienteret speciale Gamification Et teoretisk orienteret speciale Udarbejdet af Danni Kirstine Skou 10. semester, Interaktive Digitale Medier Aalborg Universitet, maj 2012 Vejleder: Thessa Jensen Titelblad Gamification Et

Læs mere

Dokumentrepræsentation af computerspil

Dokumentrepræsentation af computerspil Dokumentrepræsentation af computerspil En undersøgelse af Domæneanalyses anvendelighed som teoretisk grundlag for dokumentrepræsentation af computerspil Resumé Dokumentrepræsentation af computerspil er

Læs mere

En Prisorienteret Rejseplan - A Price-oriented Travel Planner

En Prisorienteret Rejseplan - A Price-oriented Travel Planner 2014 En Prisorienteret Rejseplan - A Price-oriented Travel Planner Roskilde Universitet, RUC 1. Semesterprojekt Humanistisk-Teknologisk basisstudium Hus 6.2 Gruppe 10: Rasmus Theil Hansen Kristoffer Schjønnemann

Læs mere

PAYWALLS! !!!!!!!!!!! !!!! En receptionsanalyse af holdninger til paywalls! Roskilde Universitet Forår 2014! Gruppe 13! 56.451 anslag!

PAYWALLS! !!!!!!!!!!! !!!! En receptionsanalyse af holdninger til paywalls! Roskilde Universitet Forår 2014! Gruppe 13! 56.451 anslag! PAYWALLS En receptionsanalyse af holdninger til paywalls Roskilde Universitet Forår 2014 Gruppe 13 56.451 anslag Mathilde Reimer Larsen, Pauline Ida Schweitz, Senem Aydinoglu, Caroline Sophie Hvolbøl Sønnichsen

Læs mere

Brugerinddragende design af budgetapplikation

Brugerinddragende design af budgetapplikation Roskilde Universitet Humanistisk-teknologisk bacheloruddannelse (C) Efteråret 2014 5. Semester Brugerinddragende design af budgetapplikation Gruppe B1 Aline Bartholin - 50298 Magnus Holt - 50230 Mette

Læs mere

Software, apps og andre gode danske ord

Software, apps og andre gode danske ord Software, apps og andre gode danske ord Et kvalitativt studie af hvorvidt uddannelsesniveau påvirker forståelsen af og holdningen til engelske låneord i danske, tekniske tekster Copenhagen Business School,

Læs mere

Af: Line Andersen og Tanja Hejl 23. maj 2014 Vejleder: Susanne Ørnager I samarbejde med Nota

Af: Line Andersen og Tanja Hejl 23. maj 2014 Vejleder: Susanne Ørnager I samarbejde med Nota Abstract Background: This bachelor thesis examines the search processes online and in digital and physical libraries of dyslexic users aged 15 to 19. Purpose: The purpose of this thesis is to analyze barriers

Læs mere

Agile metoder i en traditionel organisation

Agile metoder i en traditionel organisation Agile metoder i en traditionel organisation - Med dynamikken fra kulturen Specialeprojekt ved Center for IT-Ledelse, Aalborg Universitet Forfatter: Lasse Storgaard Jensen Titelblad Projekttitel: Agile

Læs mere

Foreninger og lokalsamfund To casestudier af lokalsamfund på Mors

Foreninger og lokalsamfund To casestudier af lokalsamfund på Mors Foreninger og lokalsamfund To casestudier af lokalsamfund på Mors Af Ole Zielke og Jon Urskov Pedersen Indholdsfortegnelse Indholdsfortegnelse...2 1. Forord...3 2. Problemformulering...4 2.1. Indledning...4

Læs mere

KUNSTEN AT MÅLRETTE DELE AF EN HJEMMESIDES TAKSONOMI GENNEM EVALUERENDE BRUGERINDDRAGELSE

KUNSTEN AT MÅLRETTE DELE AF EN HJEMMESIDES TAKSONOMI GENNEM EVALUERENDE BRUGERINDDRAGELSE KUNSTEN AT MÅLRETTE DELE AF EN HJEMMESIDES TAKSONOMI GENNEM EVALUERENDE BRUGERINDDRAGELSE KIRSTEN REIMER MASTERAFHANDLING DET INFORMATIONS VIDENSKABELIGE AKADEMI 2013 ii RESUMÉ Kunsten at målrette dele

Læs mere

Når lederen også er coach

Når lederen også er coach Kandidatafhandling Copenhagen Business School 2012 Cand.Merc.HRM Ditte Jensen: Lea Jørgensen: Når lederen også er coach - Et casestudie af 6 lederes praksisbrug af ledelsesbaseret coaching og de tilhørende

Læs mere