Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog Anne Sofie Jakobsen, ph.d.-stipendiat Institut for Engelsk, Germansk og Romansk Dias 1
LUNAS nordisk netværk 2013-2016 Deltagere: Universitetet i Oslo, Göteborg Universitet, Dansk Sprognævn, Københavns Universitet (INSS, CST og ENGEROM/CIP) Netværket udgør en platform for koordinering af nationale forskningsprojekter vedrørende akademisk sprogbrug med fokus på korpora over akademiske sprog og akademiske ord- og fraselister. Forpligtet til at søge nationale forskningsmidler: Sverige:http://spraakbanken.gu.se/eng/forskning/ak ademiska-ordlistor Norge: http://www.tekstlab.uio.no:4000/ (bokmål) DK: Velux (afslag) og mit ph.d.-projekt Dias 2
Akademisk sprogbrug i et ordforrådsperspektiv- En korpusbaseret undersøgelse af ordforrådet i skriftligt akademisk dansk Formål: At give en empirisk baseret beskrivelse af akademisk ordforråd på dansk med et særligt fokus på flerordsforbindelser. Forskningsspørgsmål: 1. Hvilke leksemer, enkeltords- såvel som flerordsleksemer, kan identificeres som en del af dansk akademisk ordforråd? 2. Hvad er disse leksemers distribution, betydning, funktion, form og struktur? 3. Er der forskelle i leksemernes distribution, betydning og funktion i forskellige fagdiscipliner? Dias 3
Akademisk sprog og akademisk ordforråd Academic language is the specialized language, both written and oral, of academic settings that facilitates communication and thinking about disciplinary content. (Nagy and Townsend, 2012:92) Det akademiske ordforråd består af ord og fraser der optræder på tværs af fagdiscipliner. Det er ofte abstrakte ord, og de er med til at opbygge den akademiske diskurs ( the glue of academic language use ) Ordlister: Undervisningsredskab Evalueringsredskab Korpora et forskningsredskab: Sprogbrugsbaseret viden om akademisk ordforråd Dias 4
Etablering af AcaDan - korpusdesign Indsamling af tekster: PURE rapporter fra KU s seks fakulteter Opslag i Den Danske Forskningsdatabase Metadata: forfatter, kilde, år, fagdisciplin, længde, nummer, filnavn Korpussammensætning: Forventet størrelse 2.5-3.5 millioner løbende ord Genrer: Fagfællebedømte tidskriftsartikler AcaDan Fagdomæne: Naturvidenskab, sundhedsvidenskab, humaniora og samfundsvidenskab Fagdisciplin: En række fagdiscipliner inden for hvert domæne Dias 5
Brug af Clarin.dk Hvad har jeg brug for: Konvertering fra pdf til txt Tokenisering Lemmatisering Pos-tagging Filformat der kan indlæses i SketchEngines Flere filer på én gang Beholde det unikke filnavn (domæne, fagområde, nummer) Dias 6
Upload af filer Dias 7
Annotation Dias 8
Annotationstyper, Format og Sprog Dias 9
Annotation Dias 10
Lidt om metadata Dias 11
Der arbejdes og Done! Dias 12
Annotation udvalgte steps i workflowet Konvertering fra pdf til flad tekst: PDFMINER+ CST's RTFreader Tokenisering: TEIP5- tokeniser/sentence extractor Lemmatisering: CST-Lemmatiser Filformat: CoNLL converter PosTagging: OpenNLP tools PosTagger Dias 13
Resultat File 778.zip indeholder 243 elementer: 1 html fil 22 txt filer (PDFMiner + CST's RTFreader) trin 1 & 2 66 csv filer (tokenisering, lemmatisering, POS-tagging) trin 5-9 143 xml filer (tokenisering, lemmatisering, POS-tagging) trin 3-9 11 CoNLL filer (CoNLL converter) trin 10 Dias 14
Resultat Dias 15
CoNLL-filen Dias 16
Referencer og links Svensk akademisk ordliste: http://spraakbanken.gu.se/eng/forskning/akademiska-ordlistor Norsk akademisk ordliste: http://www.tekstlab.uio.no:4000/ Nagy, W. & D. Townsend (2012): "Word as Tools: Learning Academic Vocabulary as Language Acquisition." Reading Research Quarterly, 47 (1), 91-108. CLARIN.DK s værktøjer: https://clarin.dk/tools/ Om CoNLL-format: http://ufal.mff.cuni.cz/conll2009-st/taskdescription.html Om LUNAS-netværket: http://cip.ku.dk/forskning/netvaerk/lunas/ Om LUNAS-konferencen (9.-11. maj 2016): http://lunas2016.ku.dk/ Dias 17