Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa

Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa af Lotte Weilgaard Christensen Gert Engel NorNa Navnet NorNa er et teleskopord dannet af Nordic Navigator. NorNa er desuden navnet på en sjælden orkide, der vokser i det nordlige Sverige. Denne blomst har vi valgt at tage med i vores logo. Norna er også navnet på skæbnegudinder i nordisk mytologi. Baggrund I de nordiske lande har enkelte forskningsinstitutioner i de seneste år oparbejdet en betydelig viden og en stærk faglig kompetence inden for området KORPUSLINGVISTIK, hvor den faglige tyngde er præget af den lingvistiske indfaldsvinkel. Men den opnåede forskningsmæssige kompetence har endnu ikke udmøntet sig i en nytteværdi for erhvervslivet og offentlige institutioner /organisationer i form af målrettet formidling og konkrete løsningsforslag. Virksomhederne savner en konkretisering af forskningstiltag, der kan støtte dem i løsningen af de opgaver, de hver især skal gennemføre, hvis de sprogteknologiske værktøjer, der udvikles, skal gøres funktionsdygtige for den enkelte virksomhed.

Projektets motivering og formål NorNa-netværket har som sit hovedemne valgt et oplagt eksempel på et sprogteknologisk værktøj, nærmere bestemt en tværsproglig, nordisk søgemaskine, hvis anvendelse vil have en åbenlys nytteværdi for mange nordiske virksomheder og institutioner. Som en typisk repræsentant for sådanne virksomheder skal her nævnes NORDEA, hvor banker fra flere nordiske lande i stedet for at globalisere har gennemført en fusion på nordisk plan. Det direkte formål med netværket er at optimere udnyttelsen af nordiske vidensresurser ved at give brugerne i Norden mulighed for at søge informationer på deres modersmål og få dem leveret på alle nordiske sprog. Til dette formål vil der blive udviklet en prototype for et nordisk søgeinterface, som i samspil med eksisterende søgemaskiner giver monolingval adgang til informationer på flere nordiske sprog. Sprog I prototypen må de nordiske sprog begrænses til dansk, norsk (nynorsk eller bokmål), svensk og finsk. Der er i projektet enighed om, at engelsk bør indgå, fordi det for alle nordiske sprog fungerer som drejeskivesprog til en global informationssøgning, der på længere sigt kan få andre ikke-nordiske sprog med. Ved en senere produktudvikling skal det være muligt at medtage de øvrige nordiske sprog og eventuelt andre hovedsprog. Multilingval approach Ved multilingval søgemaskine forstås her en søgemaskine, der giver mulighed for at søge i et sprog, men med mulighed for visning af søgeresultatet på flere sprog i dette tilfælde de valgte, nordiske sprog. Centralt for projektet er, at der skal arbejdes på et stringent ontologisk grundlag, der er fælles for de nordiske sprog. Til fagspecifikke søgebegreber udarbejdes definitioner. Som et mini-

mum udarbejdes der definitioner på mindst et af de skandinaviske sprog, til mere almene begreber anføres imidlertid en betydningsbeskrivelse. Til håndtering af de ovenfor nævnte data udvikles eller adapteres et hybrid-system, der integrerer thesaurus- og termbankfunktioner. Vi kalder dette system for et ThT-system. Til søgeinterfacet vil de vigtigste datakategorier være: CLASS faglig klassifikation D deskriptor (benævnelser for søgebegreber på et overordnet niveau) T term (benævnelse for fagspecifikke søgebegreber) O ortografiske varianter til D eller T A associative søgebegreber til D og T DEF definitioner EXPL betydningsbeskrivelser Derudover er der i forbindelse med søgeinterfacet behov for følgende metadata: begrebsidentifikation administrative oplysninger udvalgte HEADER-informationer I netværket har vi stået over for valget mellem fri eller guidet søgning. En fri søgning ville forudsætte, at den nordiske indeks skal integreres i en eller flere eksisterende søgemaskiner. En sådan opgave ville end ikke med en prototype kunne løses inden for projektets rammer. Ud fra et pragmatisk synspunkt vælges derfor en guidet søgning, der i form af et søgeinterface kan give adgang til flere udvalgte eksisterende søgemaskiner. Søgeinterfacet bygger på, at brugeren vælger sit/sine søgebegreber fra faste søgelister. Ved valg af associerede begreber henvises til begreber med D- eller T-status. Hvis brugeren er i tvivl om et begreb, han agter at vælge, er det helt rigtige, vil der være mulighed for opslag i ThT-systemets definitioner og forklaringer. Når det endelige valg er truffet, sender interfacet søgebegrebet med alle nordiske benævnelser og - om ønsket - også den engelske benævnelse til den tilknyttede søgemaskine.

Prototypen vil blive baseret på enkelte, udvalgte domæner. Som en praktisk løsning overvejes det at vælge et hoveddomæne, hvortil der kan knyttes udvalgte underdomæner. Der foretages korpusbaseret datafangst, hvor datafangsten baseres på et korpus, der omfatter parallelle dokumenter på de repræsenterede sprog. Desuden kan der inddrages parallelle, oversatte korpora. Ud over sideløbende intern testning skal prototypen som afslutning evalueres efter de principper, der anvendes af Cross- Language Evaluation Forum (CLEF) < www.clef-campaign.org >. Projektdeltagere NorNa-netværket består af i alt syv grupper, to danske og to norske grupper, en finsk med modersprogskompetence i svensk, en svensk gruppe med rådgivende funktion og en gruppe fra Letland med observatør-status. Fælles for de involverede grupper er, at der er tale om grupper, der kommer fra fagsproglige, terminologiske miljøer i Norden. Deltagerne er: Lektor Lotte Weilgaard Christensen, ph.d., Syddansk Universitet, Institut for Fagsprog, Kommunikation og Informationsvidenskab Kolding, Danmark Forskningsleder Gert Engel, cand.mag., Institut for Erhvervsinformatik (IfE) Kolding, Danmark IT-konsulent Torben Dahl Jensen, cand.ling.merc., Institut for Erhvervsinformatik (IfE)- Kolding, Danmark Terminologikonsulent Ruth Feil, cand.mag., Institut for Erhvervsinformatik (IfE) Kolding, Danmark Överassistent Nina Pilke, FD, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland Assistent Johanna Hartvik, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland Professor Christer Laurén, Vasa Universitet, Institutionen för nordiska språk Vasa, Finland

Professor Magnar Brekke, ph.d., Norges Handelshøyskole Bergen, Norge Dr.-gradsstipendiat Marita Kristiansen, Norges Handelshøyskole Bergen, Norge 1. amanuensis Øivin Andersen, dr.art., Universitetet i Bergen, LILI/seksjon for lingvistiske fag Bergen, Norge Førstekonsulent Tone Merete Bruvik, Universitetet i Bergen, HIT-sentret Bergen, Norge Terminolog Henrik Nilsson, fil.kand., AB Terminologicentrum TNC Stockholm, Sverige Terminolog Maria Gustafsson, AB Terminologicentrum TNC Stockholm, Sverige Terminolog Klaudia Dobrina, AB Terminologicentrum TNC Stockholm, Sverige Som observatører: Associate Professor Juris Baldunčiks, dr. philol., Ventspils College, Faculty of Translation Studies, Ventspils, Letland Associate Professor Maija Baltina, dr. philol., Ventspils College, Faculty of Translation Studies, Ventspils, Letland Projektledelsen består af: Lektor Lotte Weilgaard Christensen, ph.d., Syddansk Universitet, Danmark Överassistent Nina Pilke, FD, Vasa Universitet, Finland Professor Magnar Brekke, ph.d., Norges Handelshøyskole, Norge Aktiviteter i NorNa-netværket NorNa-netværket har planlagt to typer møder, nemlig netværksmøder, der både indeholder organisatoriske og faglige elementer, samt workshops, hvor der fokuseres på det faglige indhold. Netværksmøde Det første NorNa-netværksmøde blev afholdt i Kolding i september 2002 og strakte sig over 1½ dag (d. 13. og 14. september). I mødet deltog ankerpersoner fra hver projektgruppe undtagen den lettiske. Det primære formål med dette møde var at udveksle ide-

er og forestillinger i forhold til idegrundlaget for aktiviteterne i netværket. Forskningsleder Gert Engel, Institut for Erhvervsinformatik præsenterede et rammeforslag for et nordisk søgeinterface, der er baseret på en terminologisk tilgang. Torben Dahl Jensen, også fra Institut for Erhvervsinformatik, demonstrede termbase-applikationen TERMplus og et lemmatiseringsprogram, der har grænseflade til TERMplus. Lektor Lotte Weilgaard Christensen gav et oplæg til afgrænsning af domæne, afdækning af eksisterende terminologiske resurser, korpusdesign mv. 1. amanuensis Øivin Andersen, Bergen præsenterede nogle eksempler på opmærkning fra et projekt ved Universitetet i Bergen. Endvidere diskuteredes netværkets hjemmeside. Netværksmødets 2. dag blev brugt til at diskutere valg og emner for det fremtidige netværksarbejde, herunder valg af sprog og domæner for korpora, diskussion af søgemaskiner, adgang til lemmatiseringsprogrammer for de behandlede sprog og korpusværktøjer. Desuden blev fora for præsentationer af de første resultater fra NorNa-netværket overvejet. Efter netværksmødet har grupperne i Kolding i september holdt møde med Hercules Dalianis (Kungl. Tekniska Högskolan, Stockholm) fra NorFA-netværket ScandSum. Hercules Dalianis præsenterede indekseringsprogrammet SiteSeeker. Der blev truffet aftale om at teste NorNa-gruppens korpora på SiteSeeker. Efter netværksmødet har NorNa-netværket fået sin egen hjemmeside på adressen http://www.norna.dk. Desuden er netværket i gang med at vælge endelige emner for korpora. Henrik Nilsson, TNC havde d. 23. september en første, kort præsentation af NorNa ved Svenska nätinfoföreningen i forbindelse med et seminar om informationstjenester med titlen Nätinformation i Sverige möjligheter och problem. Fremtidige aktiviteter Det næste møde og dermed den første workshop finder sted i begyndelsen af 2003 i Bergen. På dette møde skal der træffes endelige aftaler om valg af korpora. Også annotation vil være et vigtigt punkt på dette møde, hvor der vil være mulighed for at diskutere emnet med personer fra HIT-centret. Det er endvidere

planen, at de første resultater i netværket vil blive præsenteret på Nordterm-konferencen i juni 2003 i Sverige. Bibliografi Kluck, Michael & T. Mandl & C. Womser-Hacker (2002): Cross- Language Evaluation Forum (CLEF) Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren