Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa



Relaterede dokumenter
NorFA-møde i netværket. Syddansk Universitet Kolding, d. 13. og

NorNa: Datafangst ved hjælp af en nordisk søgemaskine Arbejdsmøde 10. til 12. oktober 2003 på Hotel KOLDINGFJORD. Notat fra mødet

Om kvalitetsudvalget Uddannelses- og Forskningsministeriet

DEFF projektet E-læring, informationskompetencer og biblioteksservices hvordan kan det digitale bibliotek bidrage til employability?

Parallelsprogspolitik hvad kan det være? CIPs jubilæumskonference Frans Gregersen

Ordbogssamarbejde i Norden

Projektet Kontrolleret fagsprog til danske virksomhedstekster. Rapport nr. 1. Behovsanalyse

Refleksion. i praksis. Onsdag den 26. og torsdag den 27. maj 2010

Verktyg for utvärdering och forskningsinformerad praktik Förskolekonferens juni 2014

Program. Talentudvikling og kreativitet i naturvidenskab i uddannelser i Norden

præsenterer konkrete modeller for samarbejdsprojekter mellem uddannelsesinstitutioner, kommuner og tværfaglige talentfora

Kød, mælk og ost fra gamle nordiske husdyrracer

Professionelles blikke på den anden når fortællinger ændrer identiteter - udkommer efterår Frydelund Akademisk.

Studieordning for tilvalget på bachelorniveau i. It og sprog, 2013-ordningen

b i n d e l e d & 3 it-uddannelser på syddansk universitet, campus kolding o r g a n i s at i o n s p s y c h o l o g y s c i e n c e c u lt u r e

Konferencen finder sted mandag den 16. september kl på Syddansk Universitet, Campusvej 55, Odense

Godkendt 7. juni Årsrapport 2017

Online markedsføring er i kraftig vækst, fordi det er en af de bedste og mest effektive måde at markedsføre sig på - hvis man gør det rigtigt!

Velkommen til workshoppen Innovation, ledelse og organisationsudvikling. SDU s erhvervskonference 3. juni 2014

Terminologi til tiden

Campus Odense. Miljøplanlægning. samfundsfag. 3-årig Bacheloruddannelse SAMFUNDSVIDENSKAB

Præsentation til en model for undervisning i de gymnasiale uddannelser i: Bæredygtighed og Innovation Projektet

Hvad forstår unge svenskere og nordmænd 1

Hvordan kan involvering af klinisk personale, patienter og pårørende bidrage til forandring af psykiatrisk sundhedspraksis?

Terminologi på tværs af Danmark og EU

Til Styregruppen vedrørende evaluering af Region Midtjyllands organisationsplan

PLAN OG UDVIKLING GIS-STRATEGI

Nordisk publiceringsnævn for humanistiske og samfundsvidenskabelige tidsskrifter Nordic Board for Periodicals in the Humanities and Social Sciences

Rettelsesblad til Studieordning for bacheloruddannelsen i dansk 2013 Gælder for studerende indskrevet pr. 1. september 2013.

HERIBERT PICHT. Gert Engel

NoSB kongres - Nordisk kongres for børnesygeplejersker. Stockholm september 2014 Lyssna til Barnen

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

SAMFUNDSFAG, CENTRALFAG

NORDISK FOND FOR BYTRÆER

Nordisk som mål blålys eller nordlys?

Bankernes fokus på nye kunder går ud over de gamle

Ekspertliste Institut for Fagsprog, Kommunikation og Informationsvidenskab

Forslag til indsatsområde

Program. Projektet Moderne Importord i Norden - Præsentation

Godkendelsesbrev. Aarhus Universitet. Afgørelse om godkendelse af nyt udbud

Kommunikativa Relationer et opfølgningskursus Mars 2017, Aalborg, Danmark

Samarbejdsaftale mellem Holstebro Kommune og Aarhus Universitet

Karriereveje for sygeplejersker med Master og Kandidat

Aktionsforskningsgruppe i samarbejde mellem Taos Institute og MacMann Berg Invitation til at deltage i dagsordensættende og innovativ praksisudvikling

SAMARBEJDE OG SAMSPIL MELLEM FORSKNINGSINSTITUTIONER, INDUSTRI OG MYNDIGHEDER PÅ MILJØ OG KLIMAOMRÅDET

Science Future Camp: Smart Factory

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Sproglige problemstillinger ved informationssøgning

REFERENCERAMMEN FOR PLURALISTISKE TILGANGE TIL SPROG OG KULTURER ET ECML PROJEKT. Petra Daryai-Hansen, ph.d. Roskilde Universitet

Center for Internationalisering og Parallelsproglighed (CIP)

European Employee Index Danmark årgang

DEN 12. NORDISKE FOLKESUNDHEDSKONFERENCE AALBORG (22-25 augusti) Sid

Kliniske retningslinjer på det kommunale sundhedsområde

Møde i Samarbejdsnævnet for Nordenundervisningen i Udlandet (SNU), University College London, London den 30. oktober, 2015,

PANORAMA (PArallele NORdiske Annoterede Multilinguale korpora)

Samfundsfag - HTX. FIP Marts 2017

Indhold. Evalueringsrapport. Dansk deltagelse på Classical:NEXT maj Sammenfatning

ell: Projekt Netværk om e-læring

US AARH FORSLAG TIL AKADEMISKE RÅD PÅ AARHUS UNIVERSITET

Indhold... 2 GCP-enhedens mission GCP-enhedens vision Organisation... 4 Aktiviteter... 5 Intern Kvalitetssikring...

redaksjonelt redaksjonelt

Projektets titel: Styrkelse af undervisningen i naturvidenskabelige fag via autenticitet og kontakt til eksterne partnere

Skabelon for. Faculty of Humanities Curriculum for the Elective Studies in IT and Language The 2007 Curriculum. Justeret 2010

Akkrediteringsrådet har godkendt kandidatuddannelsen i pædagogik ved Syddansk

MANUSCRIPT for 3 videoer

TI-DK bestyrelsesmøde

Udviklingsprojekter om skriftlighed

God planlægning, implementering og dokumentation

Skandinavisk Kompetenceudviklingsnetværk. Markedsscreening af videopræsentation

GIS-parathed i den offentlige sektor i Danmark og Norden

Fagbeskrivelse. Modul: Brugerinddragelse i praksis og forskning. User involvement in health practice and research

Adm. direktør Erik Hansen, mejerichef Dagny Lange, adm. direktør Ulrik Gammelgaard, professor Henrik Hautop Lund, rektor Birthe Sandorf.

Opstillingsgrundlag. Nikolaj Stegeager Institut for Læring og Filosofi Aalborg Universitet. Kære DUN-medlemmer

Status arbejdspakke 2.1 Organisering af netværk mellem uddannelsesinstitutioner og virksomheder.

Teori og metode. Stine Heger, cand.mag. Gitte Holten Ingerslev, lektor, ph.d. skrivecenter.dpu.dk AKADEMISK SKRIVECENTER APRIL2011

NB: Tilmeldingen til valgfaget gælder for 5. og 6. semester

FORUM FOR KOORDINATION AF UDDANNELSESFORSKNING

Forsknings- og udviklingsprojektet Styrket fokus på børns læring. Informationsmateriale om projektet

PKL UKO VUS Møde 28. september 2015

Evalueringsrapport om kvaliteten af teoretisk pædagogikum 2011 til 2013.

Behov for fremmedsprogskompetencer og dansk eksport går hånd i hånd

Fysisk aktivitet og træning som behandling ONSDAG DEN 28. NOVEMBER 2012

Kvalitetsstyringssystem for test af leverandørernes implementering af MedCom s profiler

28. januar 2019 BORGERINDDRAGELSE I FORSKNING 2.0

Kliniske retningslinjer på det kommunale sundhedsområde

for erhvervskonsulenter og andre erhvervsfolk

Aktieindekserede obligationer. Sikker investering i det nordiske opsving

En svensk version af dette dokument kan hentes her: people/hagerman/riktlinjer.pdf (500 kb)

Nyt fra ministeriet. Sproglærerens dag UC-Sjælland, den 26. januar 2012

Læs!lesLäs Læsevaner og børnebogskampagner i Norden

Anvendt videnskabsteori

PROBLEMFORMULERING. på videregående uddannelser LOTTE RIENECKER STUDIETEKNIKSERIEN 4. UDGAVE

Målstyret transportpolitik kan Danmark lære af Sverige og Norge?

En fagperson fa r ordet: Interview med Hans Basbøll

DaDi Ellen Krogh DaDi seminar 17. juni 2013

IT-arbejdsgruppen. 10 maj 2011

Metodebeskrivelse for vidensnotat om skole-hjem-samarbejde

Samskabelse i Nordic City Network. Organisering af Guldzonen - en start-up guide

Kvalitetsprojektet. Kommissorium. Udarbejdet af Christian Clausen. Godkendt d af Jens Mejer Pedersen

KONFLIKTER OM BØRNS SKOLELIV

Transkript:

Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa af Lotte Weilgaard Christensen Gert Engel NorNa Navnet NorNa er et teleskopord dannet af Nordic Navigator. NorNa er desuden navnet på en sjælden orkide, der vokser i det nordlige Sverige. Denne blomst har vi valgt at tage med i vores logo. Norna er også navnet på skæbnegudinder i nordisk mytologi. Baggrund I de nordiske lande har enkelte forskningsinstitutioner i de seneste år oparbejdet en betydelig viden og en stærk faglig kompetence inden for området KORPUSLINGVISTIK, hvor den faglige tyngde er præget af den lingvistiske indfaldsvinkel. Men den opnåede forskningsmæssige kompetence har endnu ikke udmøntet sig i en nytteværdi for erhvervslivet og offentlige institutioner /organisationer i form af målrettet formidling og konkrete løsningsforslag. Virksomhederne savner en konkretisering af forskningstiltag, der kan støtte dem i løsningen af de opgaver, de hver især skal gennemføre, hvis de sprogteknologiske værktøjer, der udvikles, skal gøres funktionsdygtige for den enkelte virksomhed.

Projektets motivering og formål NorNa-netværket har som sit hovedemne valgt et oplagt eksempel på et sprogteknologisk værktøj, nærmere bestemt en tværsproglig, nordisk søgemaskine, hvis anvendelse vil have en åbenlys nytteværdi for mange nordiske virksomheder og institutioner. Som en typisk repræsentant for sådanne virksomheder skal her nævnes NORDEA, hvor banker fra flere nordiske lande i stedet for at globalisere har gennemført en fusion på nordisk plan. Det direkte formål med netværket er at optimere udnyttelsen af nordiske vidensresurser ved at give brugerne i Norden mulighed for at søge informationer på deres modersmål og få dem leveret på alle nordiske sprog. Til dette formål vil der blive udviklet en prototype for et nordisk søgeinterface, som i samspil med eksisterende søgemaskiner giver monolingval adgang til informationer på flere nordiske sprog. Sprog I prototypen må de nordiske sprog begrænses til dansk, norsk (nynorsk eller bokmål), svensk og finsk. Der er i projektet enighed om, at engelsk bør indgå, fordi det for alle nordiske sprog fungerer som drejeskivesprog til en global informationssøgning, der på længere sigt kan få andre ikke-nordiske sprog med. Ved en senere produktudvikling skal det være muligt at medtage de øvrige nordiske sprog og eventuelt andre hovedsprog. Multilingval approach Ved multilingval søgemaskine forstås her en søgemaskine, der giver mulighed for at søge i et sprog, men med mulighed for visning af søgeresultatet på flere sprog i dette tilfælde de valgte, nordiske sprog. Centralt for projektet er, at der skal arbejdes på et stringent ontologisk grundlag, der er fælles for de nordiske sprog. Til fagspecifikke søgebegreber udarbejdes definitioner. Som et mini-

mum udarbejdes der definitioner på mindst et af de skandinaviske sprog, til mere almene begreber anføres imidlertid en betydningsbeskrivelse. Til håndtering af de ovenfor nævnte data udvikles eller adapteres et hybrid-system, der integrerer thesaurus- og termbankfunktioner. Vi kalder dette system for et ThT-system. Til søgeinterfacet vil de vigtigste datakategorier være: CLASS faglig klassifikation D deskriptor (benævnelser for søgebegreber på et overordnet niveau) T term (benævnelse for fagspecifikke søgebegreber) O ortografiske varianter til D eller T A associative søgebegreber til D og T DEF definitioner EXPL betydningsbeskrivelser Derudover er der i forbindelse med søgeinterfacet behov for følgende metadata: begrebsidentifikation administrative oplysninger udvalgte HEADER-informationer I netværket har vi stået over for valget mellem fri eller guidet søgning. En fri søgning ville forudsætte, at den nordiske indeks skal integreres i en eller flere eksisterende søgemaskiner. En sådan opgave ville end ikke med en prototype kunne løses inden for projektets rammer. Ud fra et pragmatisk synspunkt vælges derfor en guidet søgning, der i form af et søgeinterface kan give adgang til flere udvalgte eksisterende søgemaskiner. Søgeinterfacet bygger på, at brugeren vælger sit/sine søgebegreber fra faste søgelister. Ved valg af associerede begreber henvises til begreber med D- eller T-status. Hvis brugeren er i tvivl om et begreb, han agter at vælge, er det helt rigtige, vil der være mulighed for opslag i ThT-systemets definitioner og forklaringer. Når det endelige valg er truffet, sender interfacet søgebegrebet med alle nordiske benævnelser og - om ønsket - også den engelske benævnelse til den tilknyttede søgemaskine.

Prototypen vil blive baseret på enkelte, udvalgte domæner. Som en praktisk løsning overvejes det at vælge et hoveddomæne, hvortil der kan knyttes udvalgte underdomæner. Der foretages korpusbaseret datafangst, hvor datafangsten baseres på et korpus, der omfatter parallelle dokumenter på de repræsenterede sprog. Desuden kan der inddrages parallelle, oversatte korpora. Ud over sideløbende intern testning skal prototypen som afslutning evalueres efter de principper, der anvendes af Cross- Language Evaluation Forum (CLEF) < www.clef-campaign.org >. Projektdeltagere NorNa-netværket består af i alt syv grupper, to danske og to norske grupper, en finsk med modersprogskompetence i svensk, en svensk gruppe med rådgivende funktion og en gruppe fra Letland med observatør-status. Fælles for de involverede grupper er, at der er tale om grupper, der kommer fra fagsproglige, terminologiske miljøer i Norden. Deltagerne er: Lektor Lotte Weilgaard Christensen, ph.d., Syddansk Universitet, Institut for Fagsprog, Kommunikation og Informationsvidenskab Kolding, Danmark Forskningsleder Gert Engel, cand.mag., Institut for Erhvervsinformatik (IfE) Kolding, Danmark IT-konsulent Torben Dahl Jensen, cand.ling.merc., Institut for Erhvervsinformatik (IfE)- Kolding, Danmark Terminologikonsulent Ruth Feil, cand.mag., Institut for Erhvervsinformatik (IfE) Kolding, Danmark Överassistent Nina Pilke, FD, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland Assistent Johanna Hartvik, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland Professor Christer Laurén, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland

Professor Magnar Brekke, ph.d., Norges Handelshøyskole Bergen, Norge Dr.-gradsstipendiat Marita Kristiansen, Norges Handelshøyskole Bergen, Norge 1. amanuensis Øivin Andersen, dr.art., Universitetet i Bergen, LILI/seksjon for lingvistiske fag Bergen, Norge Førstekonsulent Tone Merete Bruvik, Universitetet i Bergen, HIT-sentret Bergen, Norge Terminolog Henrik Nilsson, fil.kand., AB Terminologicentrum TNC Stockholm, Sverige Terminolog Maria Gustafsson, AB Terminologicentrum TNC Stockholm, Sverige Terminolog Klaudia Dobrina, AB Terminologicentrum TNC Stockholm, Sverige Som observatører: Associate Professor Juris Baldunčiks, dr. philol., Ventspils College, Faculty of Translation Studies, Ventspils, Letland Associate Professor Maija Baltina, dr. philol., Ventspils College, Faculty of Translation Studies, Ventspils, Letland Projektledelsen består af: Lektor Lotte Weilgaard Christensen, ph.d., Syddansk Universitet, Danmark Överassistent Nina Pilke, FD, Vasa Universitet, Finland Professor Magnar Brekke, ph.d., Norges Handelshøyskole, Norge Aktiviteter i NorNa-netværket NorNa-netværket har planlagt to typer møder, nemlig netværksmøder, der både indeholder organisatoriske og faglige elementer, samt workshops, hvor der fokuseres på det faglige indhold. Netværksmøde Det første NorNa-netværksmøde blev afholdt i Kolding i september 2002 og strakte sig over 1½ dag (d. 13. og 14. september). I mødet deltog ankerpersoner fra hver projektgruppe undtagen den lettiske. Det primære formål med dette møde var at udveksle ide-

er og forestillinger i forhold til idegrundlaget for aktiviteterne i netværket. Forskningsleder Gert Engel, Institut for Erhvervsinformatik præsenterede et rammeforslag for et nordisk søgeinterface, der er baseret på en terminologisk tilgang. Torben Dahl Jensen, også fra Institut for Erhvervsinformatik, demonstrede termbase-applikationen TERMplus og et lemmatiseringsprogram, der har grænseflade til TERMplus. Lektor Lotte Weilgaard Christensen gav et oplæg til afgrænsning af domæne, afdækning af eksisterende terminologiske resurser, korpusdesign mv. 1. amanuensis Øivin Andersen, Bergen præsenterede nogle eksempler på opmærkning fra et projekt ved Universitetet i Bergen. Endvidere diskuteredes netværkets hjemmeside. Netværksmødets 2. dag blev brugt til at diskutere valg og emner for det fremtidige netværksarbejde, herunder valg af sprog og domæner for korpora, diskussion af søgemaskiner, adgang til lemmatiseringsprogrammer for de behandlede sprog og korpusværktøjer. Desuden blev fora for præsentationer af de første resultater fra NorNa-netværket overvejet. Efter netværksmødet har grupperne i Kolding i september holdt møde med Hercules Dalianis (Kungl. Tekniska Högskolan, Stockholm) fra NorFA-netværket ScandSum. Hercules Dalianis præsenterede indekseringsprogrammet SiteSeeker. Der blev truffet aftale om at teste NorNa-gruppens korpora på SiteSeeker. Efter netværksmødet har NorNa-netværket fået sin egen hjemmeside på adressen http://www.norna.dk. Desuden er netværket i gang med at vælge endelige emner for korpora. Henrik Nilsson, TNC havde d. 23. september en første, kort præsentation af NorNa ved Svenska nätinfoföreningen i forbindelse med et seminar om informationstjenester med titlen Nätinformation i Sverige möjligheter och problem. Fremtidige aktiviteter Det næste møde og dermed den første workshop finder sted i begyndelsen af 2003 i Bergen. På dette møde skal der træffes endelige aftaler om valg af korpora. Også annotation vil være et vigtigt punkt på dette møde, hvor der vil være mulighed for at diskutere emnet med personer fra HIT-centret. Det er endvidere

planen, at de første resultater i netværket vil blive præsenteret på Nordterm-konferencen i juni 2003 i Sverige. Bibliografi Kluck, Michael & T. Mandl & C. Womser-Hacker (2002): Cross- Language Evaluation Forum (CLEF) Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren