NorFA-møde i netværket. Syddansk Universitet Kolding, d. 13. og 14.09.02



Relaterede dokumenter
Datafangst ved hjælp af en tværsproglig, nordisk søgemaskine NorNa

NorNa: Datafangst ved hjælp af en nordisk søgemaskine Arbejdsmøde 10. til 12. oktober 2003 på Hotel KOLDINGFJORD. Notat fra mødet

NORDISK FOND FOR BYTRÆER

Referat af bestyrelsesmøde i Danmarks 3R-Center den 3. februar 2015

REFERAT. Statens Kunstfonds Projektstøtteudvalg for Litteratur Møde nr. 10 Mødedato: Tidspunkt: kl

Eksamensprojekt

Ergoterapeutuddannelsen

Beslutningsreferat. Nordisk Ministerråd

Bestyrelsesmøde FSLS 12. januar 2014.

Dagsorden for møde i kommunaldirektørnetværket i den midtjyske region

Proces for de interdisciplinære centre. Processen for oprettelse af et interdisciplinært center:

Gymnasiefremmede i de gymnasiale uddannelser Seminar for skolekoordinatorer

Biblioteksorientering 2016 SUSANN STABELL MARSELISBORG GYMNASIUM

Vejledning til Ansøgningsblanket til projektmidler fra Nordisk Ministerråds arktiske samarbejdsprogram Ramme for projekterne

Oversættelse af tekster på andre sprog - via Google

Indbydelse til aktiv medvirken giver ekstra udbytte af symposiet!

Referat fra. Hovedservicerådsmøde lørdag den 6. februar Hovedservicekontoret - Thorsgade 59, København N klokken

Vejledning til Google Analytics rapporter

Norden en bæredygtig region med fokus på livslang læring

Dagsorden, kommenteret dagsorden og tidsplan for det 4. møde i ad hoc arbejdsgruppen om Skovenes Lokale Værdier, november 2007, i Danmark.

Ergoterapeutuddannelsen

Referat af Regionsbestyrelsesmøde 23. marts 2015 kl i lokale 3 på Holmbladsgade 70, 2300 København S

Vejledning til Ansøgningsblanket 2017 til projektmidler fra Nordisk Ministerråds arktiske samarbejdsprogram Ramme for projekterne

Her vil jeg gerne være Det er sådan dine kunder skal tænke

Bilag: handleplan og rektors oversigt

isearch Testsamling til evaluering af integreret søgning

Bestyrelsesmøde den på Hindsgavl Slot Fagligt selskab for ledende sygeplejersker (FSLS)

Tidsplan for budgetprocessen (foreløbige tidspunkter)

Til Styregruppen vedrørende evaluering af Region Midtjyllands organisationsplan

NORDISK FOND FOR BYTRÆER

Forretningsorden for landsstyrelsen i Ungdommens Røde Kors 2014/2015

Torben Kyed Larsen (Psykiatriens Anlægssekretariat)

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

Beslutningsreferat. Nordisk Ministerråd

Informationssøgning. Målret din søgning skriv bedre opgaver få en bedre karakter. Henning Lorentzen Pædagogisk IT-koordinator

Referat Styregruppemøde nr. 2 Varberg den 8. december 2010

(Indeholder åbne dagsordenspunkter) Mødedato: Onsdag den 27. februar Mødested: Mødelokale 620. Mødetidspunkt: Kl.

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

OPTAGELSESPRØVE INTERAKTIVT DESIGN

Det. Bind. Journal of. Citations. Impact Factor. Articles. Books. Patents

Tillæg til Libris-hæftet: WordPress. Temaredigering og sikkerhed m.m.

En svensk version af dette dokument kan hentes her: people/hagerman/riktlinjer.pdf (500 kb)

Administrativ praksis

NORDIC MARINE THINK-TANK

Danske Risikorådgivere. Bestyrelsesmøde

3. November f. Kandidater til SEB hæderpris og uddannelsespris 2018 deadline 20. Januar 2017 Drøftes ved næste BS møde

1. Tidsplan og deadlines... 1

Område Service Komitémøde for NA Midtjylland d

Referat af møde i landsledelsen for Dansk Fåreavl Mødet afholdtes hos Bjarne Wolfart, Vejle søndag den 01. februar 2015 kl

DANSK/HISTORIE-OPGAVEN (DHO) 1.G

Sociale Medier & SEO-pakker: Karakteristikker

Kom i gang med Adwords

KATALOG RIGSARKIVETS KURSER, KONFERENCE OG ARKIVNETVÆRK VÆR MED TIL AT GIVE FREMTIDEN EN FORTID

BLIV FUNDET PÅ GOOGLE! Hvorfor er det vigtigt? Hvad er Google (en søgemaskine)? Hvordan fungerer den? Hvad er SEO?

VEJLEDNING I BRUG AF EBGs HJEMMESIDE

Orientering om nyt GuideDanmark Oktober 2011 / fl. Baggrund

Kort introduktion til Google.

Åbent referat Udvalget for strategisk by- og landdistriktsudvikling Teknik- & Miljøsekretariatet

TeamShare 2.1 Versionsnoter Oktober 2009

FoU-projekt om gymnasiefremmede 2.0

Ordbogssamarbejde i Norden

EKSPORT ONLINE. Stå stærkt I andre lande på Google og de sociale medier

Referat møde i gruppen om Dokumentation og forskning, DSPR, Torsdag d. 27/8 kl Sukkertoppen, Vejle. Deltagere: Lea, Mette, Ruth, Lisbeth, Knud

SEO-strategi. Kunde logo

Webside score dictionary.com

Referat Hovedbestyrelsesmøde

Tovholderen og sekretariatet gennemgik udkast til tekstilvejledning, som har været sendt til kommentering hos medlemmerne.

Bilag til AT-håndbog 2010/2011

REFERAT. Til stede fra udvalget: Bente Dahl, Henrik Jansberg, Henrik Marstal, Maria Frej, Niels Rønsholdt, Asbjørn Keiding og Mikael Rørsted.

V E D T Æ G T E R. for. Nordisk Forening til Udgivelse af BCPT

PubMed Vejledning. Fritekstsøgning (Basic search) Fremvisningsformater

FællesNettet en introduktion

Ph.d.-udvalget (tidl. FARMA) Møde afholdt: Fredag den 13. juli Marianne W. Jørgensen (MWJ)

Patienter kan booke døgnet rundt. Aflaster administrationen i klinikken.

brug nettet / lær at søge effektivt

Eksamensprojekt

Fællesrepræsentationen for Specialklubber For stående Jagthunde i Danmark.

Beslutningsreferat for 29. møde i MKI den 3. marts 2017.

NVF Udformning af veje og gader

telefon fax

Parallelsprogspolitik hvad kan det være? CIPs jubilæumskonference Frans Gregersen

Projektet Kontrolleret fagsprog til danske virksomhedstekster. Rapport nr. 1. Behovsanalyse

DAGSORDEN. for. møde i bestyrelsen for Thisted Gymnasium & HF-Kursus kl på lærerværelset

Brug af CLARIN s værktøjer til at skabe AcaDan, et korpus for dansk akademisk sprog

Webdesign og webkommunikation. 10. april: Søgemaskiner, optimering og tilgængelighed

Vil du være med? Læs mere om hvordan på de næste sider.

Brugervejledning til Dansk Tidsskrift for Akutmedicin Vejledning til brugeroprettelse og indsendelse af artikel

Arrangørmanual. Udarbejdet for og i samarbejde med. kulturilanddistrikterne.dk. 1. udgave. 2010, kulturilanddistrikerne.dk

Vejledning til særskilt hjemmeside vedr. Intern overva gning

PubMed - tips til søgning

Guide til MetaTraffic Pro

Referat af NSU ekstraordinært årsmøde

Godkendt offentligt REFERAT Møde i Statikeranerkendelsesudvalget tirsdag den 13. juni 2017 kl. 12:00 17:00 IDA Mødecenter, København

Vejledning: AMUUDBUD.DK

OPTAGELSESPRØVE INTERAKTIVT DESIGN

Møde i Embedsmandskomitéen for Arbejdsliv. 24. april 2007 i Helsingfors, Finland. Kort referat

DEN STØRRE SKRIFTLIGE OPGAVE I HF

Vi støtter dit projekt - Vejledning

Brugerråd for Ishøj Fællesantenne Mødereferat

Transkript:

NorFA-møde i netværket DATAFANGST VED HJÆLP AF EN NORDISK SØGEMASKINE Syddansk Universitet Kolding, d. 13. og 14.09.02 September 2002: 1. netværksmøde Hermed følger notat fra vores 1. netværksmøde. Det bemærkes, at der nogle steder er anført Aktion det betyder, at der er nogen, der skal gøre noget. Deltagere: Øivin Andersen (ØA), Magnar Brekke (MB), Gert Engel (GE), Ruth Feil (RF)(fredag), Torben Dahl Jensen (TDJ)(fredag), Henrik Nilsson (HN), Nina Pilke (NP), Lotte Weilgaard (LW) Fredag, d. 13.09.02 Meddelelser og orientering/ Lotte Weilgaard LW bød velkommen til netværkets første møde og refererede fra NorFAs generelle seminar i Oslo i juni. Præsentation af idegrundlaget for den nordiske søgemaskine/ Gert Engel Mål At optimere udnyttelsen af nordiske vidensressourcer ved at give brugerne i Norden mulighed for at søge informationer på modersmålet og få dem leveret på alle nordiske sprog. Til dette formål udvikles en prototype for et nordisk søgeinterface, som i samspil med eksisterende søgemaskiner giver monolingval adgang til informationer på flere nordiske sprog. Sprog I prototypen må de nordiske sprog begrænses til dansk, norsk (nynorsk eller bokmål), svensk og finsk. Engelsk medtages, fordi det for alle nordiske sprog fungerer som drejeskivesprog til en global informationssøgning.

Ved en senere produktudvikling skal det være muligt at medtage de øvrige nordiske sprog og eventuelt andre hovedsprog. Multilingval approach Der skal arbejdes på et stringent ontologisk grundlag, der er fælles for de nordiske sprog. Til fagspecifikke søgebegreber udarbejdes definitioner (minimum: på et af de skandinaviske sprog), til mere almene begreber anføres en betydningsbeskrivelse. Indeks for en nordisk søgeinterface Datakategorier De vigtigste datakategorier er: CLASS Faglig klassifikation D Deskriptor (benævnelser for søgebegreber på et overordnet niveau) T Term (benævnelse for fagspecifikke søgebegreber) O Ortografiske varianter til D eller T A Associative søgebegreber til D og T DEF Definitioner EXPL Betydningsbeskrivelser Metadata Begrebsidentifikation Administrative oplysninger Udvalgte HEADER-informationer Håndtering ved hjælp af et ThT-system Til håndtering af de ovenfor nævnte data udvikles eller adapteres et hybridt system, der integrerer thesaurus- og termbankfunktioner Begrænsning på enkelte, udvalgte domæner Prototypen vil kun være i stand til at dække ganske få domæner. En praktisk løsning kan bestå i valg af et hoveddomæne, hvortil der kan knyttes udvalgte underdomæner. Korpusbaseret datafangst Datafangsten baseres på et korpus, der omfatter parallelle dokumenter på de repræsenterede sprog. Fri eller guidet søgning En fri søgning ville forudsætte, at den nordiske indeks skal integreres i en eller flere eksisterende søgemaskiner.

En sådan opgave ville end ikke med en prototype kunne løses inden for projektets rammer. Ud fra et pragmatisk synspunkt vælges derfor guidet søgning, der i form af et søgeinterface kan give adgang til flere udvalgte eksisterende søgemaskiner. Evaluering Ud over sideløbende intern testning skal prototypen søges testet efter de principper, der anvendes af Cross-Language Evaluation Forum ( CLEF). Præsentation af termbasesystemet TERMplus / Torben Dahl Jensen Præsentationen viste, at der er gode muligheder for at tilpasse TERMplus til NorNaplatformen. Nordisk søgeinterface / Torben Dahl Jensen TDJ skitserede, hvordan selve søgeinterfacet kan komme til at fungere. Brugeren vælger sit/sine søgebegreber fra faste søgelister. Ved valg af associerede begreber henvises til begreber med D- eller T-status. Er brugeren i tvivl om et begreb, han agter at vælge, er det helt rigtige, kan han få hjælp ved opslag i ThT-systemets definitioner og forklaringer. Når valget er truffet, sender interfacet søgebegrebet med alle nordiske benævnelser og - om ønsket - også den engelske benævnelse til den tilknyttede søgemaskine. Domæne, terminologi, korpus/ Lotte Afgrænsning af domæne inden for økonomi LW foreslog, at der både blev arbejdet med parallelle, oversatte korpora og emneparallelle originale korpora. Som et domæne kunne Nordeas årsrapporter bruges. De ligger på alle de nordiske sprog inkl. finsk samt engelsk. Desuden er Nordea en virksomhed, der er langt fremme på det sprogteknologiske område. Forslaget bygger også på, at MB og NP er kyndige på det økonomiske fagsprogsområde. Eksisterende terminologiske resurser brugt til validering i forhold til de data, der skal udarbejdes blev diskuteret. Handelshøjskolen i Århus vil i løbet af 2003 udbyde en regnskabsordbog på nettet. Vedr. korpusbaseret opbygning af terminologisk grundlag, se forløbsmodel nedenfor. Korpusdesign I forbindelse med drøftelse af kriterier for korpusdesign blev der præsenteret to eksempler, jf. nedenfor. Forslag til korpusdesign udarbejdet af Annelise Grinsted/Lotte Weilgaard baseret Ole Norling Christensen 1992 Hindsgavl

Headere Kildebeskrivelse Forfatter Virksomhed Fødeland (specielt aktuelt ved engelske tekster) Teksttitel Værktitel (ugeblad ol.) Lokalisering (fx sider) Forlag Udgivelsessted Udgivelsesår Tekstbeskrivelse Sprog Kommunikationspartnere / Setting Medium Genre Emne (klassifikation) Nøgleord (key words) Oversættelse: ja/nej Validitet: 1-3 Omfang Det andet eksempel på korpusdesign stammer fra System Quirk: SQ header information Author gender Author name Author nationality Character count Copyright status Domain General Infotech Aeronautics Auto engineering Entry date Language Path name Terminologist Text Text header, admin Text header, author Text header, general Text type Newspaper Advertisement Book Journal Popular science Tech manual

Word count ØA gjorde rede for, hvordan han sammen med kolleger fra HIT-centret har kodet tekster ved hjælp af TEI, som bygger på SGML, men pga. XML er det mere fleksibelt. Øivin henviste til TEILite: An Introduction ot Text Encoding for Interchange af L. Burnard, C.M. Spergberg McQueen, juni 1995, som findes på nettet (http://www.tei-c.org). Tekstkodningssystemet bygger EMACS-editoren, som ligger på nettet og kan fås gratis. På nettet findes også parser, som kan tjekke kodninger. I projektet har man kun foretaget en grovkodning. Målet er at øge teksternes genbrugsværdi. Koderne kan uden problemer slås fra og hæves ud af teksterne, så de ikke skaber problemer ved automatisk termekstraktion. Fremlæggelse af rammeforslag til hjemmeside/ Lotte LW præsenterede kort de enkelte landes dokumentationscentres hjemmesider. Derefter vistes eksempler på andre netværksprojekters hjemmesider. NORDOKNET http://www.nordoknet.org/ ; Island http://www.lexis.hi.is/isldok/ ; Danmark http://www.cst.dk/dandokcenter/; Finland http://www.ling.helsinki.fi/filt/; Sverige http://slate.gslt.hum.gu.se/; Norge http://helmer.hit.uib.no/norskdok/ Der var enighed om, at NorNa-hjemmesiden skal have en dansk og en finsk version samt en kort beskrivelse på engelsk. Følgende struktur for hjemmeside blev aftalt: Homepage Projekt Mere Information (Kort beskrivelse af projekt) (Nærmere beskrivelse af projekt) Aktiviteter Mødekalender Dagsordener Referater Publikationer Deltagere Ledelsesgruppe Relevante links Kolding udarbejder udkast til en hjemmeside. Aktion: De andre grupper kommer med ændringsforslag. Hjemmesiden er nu tilgængelig på www.norna.dk (og ikke norna.dk som annonceret). Vi beder stadig om reaktioner/kritik, inden vi lægger siden endeligt ud på nettet. Aktion Henrik: Henrik udarbejder NorNa-logo med blomst.

Syddansk har betalt oprettelsesgebyr for topdomæne. Årlig afgift beløber sig til ca. DKK 175, som projektet betaler. Hvad skal projektet hedde i kortform - NORFACE, NOSE eller...? Der udspandt sig en livlig diskussion over middagen fredag aften. Et af de mere muntre forslag var Golden Retrieval. Vi enedes om NorNa for Nordic Navigator. Desuden er Norna en orkide, der vokser i det nordlige Sverige. Lørdag, d. 14.09.02 Drøftelse af oplæg mhp. beskrivelse af projektets arbejdsopgaver Diskussionen om domæne blev genoptaget: Forslag til domæne(r) regnskabsvæsen, årsregnskaber bankvæsen finansiering marketing miljørapporter i forbindelse med revision? (Nina har arbejdet med de økonomiske områder) forsikringer aktiemarkeder/børsaktiviteter alternativ energi (IfE har kontakt til Vestas) stål telekommunikation sorteringsanlæg Aktion: Gert kontakter Lisbeth Kjeldgaard, Crisplant om der findes lignende firmaer i de andre nordiske lande Nordisk Ministerråd har en hjemmeside med paralleltekster Det undersøges også, hvad der findes på den Europæiske Centralbanks hjemmeside. Tekstgenrer blev overvejet. Der var enighed om, at lærebøger (specielt i revision) er en central genre, som bør inddrages, da de udgør en god modvægt til tekster fra internettet. Maskinlæsbare tekster Ved tekster fra Internettet, kan pdf-filer være problematiske. Henrik gjorde opmærksom på SGML-koder i internet-tekster. Nogle tekster findes på CD-rom. Med hensyn til lærebøger vil det blive nødvendigt at kontakte forlag. Korpustekster Omfang af korpora: Ca. 100.000 løbende ord pr. sprog. Tekster sendes til Kolding og samles i én base. Der arbejdes med fuldtekster. Vi skal have en rimelig fordeling på parallelle oversættelser og originale dokumenter.

Vi blev enige om både at finde tekster ved hjælp af en bottom-down og en bottom-up approach. Vi udveksler søgeord, når vi har fundet gode tekster. Nina tilbød at sende en ordliste med ca. 25 centrale termer inden for revision. Aktion: Over en kortere periode spiller vi nu ping-pong for at lægge os endeligt fast på emner. Korpushåndteringssystem Aktion: Magnar / Øivin taler med Knut Hofland. Alle holder udkig. CorpusWorkbench, Stuttgart, blev nævnt som en mulighed. Hvis ikke bedre findes, bruges FolioViews Lemmatiseringsprogrammer Aktion: Det undersøges om der findes lemmatiseringsprogrammer til svensk, norsk og svensk, som vi kan bruge. Aktion: IfE: Undersøg, hvilke sprog IfE s termekstraktor p.t. kan håndtere. Søgemaskiner Google kan bruges Fast search har fået gode anmeldelser Opera? www.alltheweb.com Arbejdsforløb i skitseform Udvælgelse af korpora. Grupperne overvejer hver især, hvilke headere, der bør bruges ved opmærkning. Opmærkning sker i forhold til behov. Udtræk af data fra korpora Hver gruppe validerer egne termlister. Fastlæggelse af ontologiske struktur (det mest tidskrævende arbejde). Her ligger også arbejdet med associative synonymer, tesaurus-elementet. Det skal fastlægges, hvordan vi deler arbejdet og efterfølgende får samlet portionerne i et fælles system. TERMplus kan bruges som opbevaringssted. Levering af data til hybrid-system. Samtidig tilpasning af TERMplus. Som noget af det sidste skal der udarbejdes en klassifikation. Arbejdsforløb ved parallelle, oversatte tekster Termekstraktion på engelsk Alignment af engelsk - da/sv/ til Translation Memory. Ekstraktion af oversættelser det undersøges, hvor de tilsvarende termer i de andre tekster findes.

Praktiske ting, herunder økonomi Vi rejser efter princippet efter regning, ikke diæter. Fastlæggelse af kommende møder Overordnede dagsordener for kommende møder Projektperiode: 1.6.02-31.05.04 Foreløbig kalender: September 2002: 1. netværksmøde, Kolding 18.10 deadline for rapport til årsbogen 01.12.02 indsendelse vedr. bevilling 2. år Februar/marts 2002: 1. workshop, Bergen 01.04.03 aflevering af statusrapport September 2003: 2. workshop Juli 2004 endelig afslutning identisk med det 2. netværksmøde Det bemærkes, at NorFAs årlige seminar i 2003 finder sted i Island, d. 30./31-05.2003 i forlængelse af NODALIDA. Det blev besluttet at holde kommende møder fra fredag (afrejse hjemmefra fredag morgen) til søndag. Møde i Bergen primo 2003 Emner på mødet: Arbejde med tekster: Det undersøges: hvad skal med i korpus og hvad mangler. Diskussion af headere og opmærkning Rapport Frister: Rapporten skal afleveres d. 18.10. LW foreslog følgende disposition Baggrund (fra ansøgningen) Projektets formål Projektbeskrivelse Projektdeltagere Aktiviteter (møde (r), herunder webside Fremtidige aktiviteter Antal sider: 4-5 sider Aktion: Lotte udarbejder udkast, som sendes til de andre netværksdeltagere til høring. Ændringsforslag markeres med kursiv og gul farve. Evt.

Orientering af Juris Baldunciks. Mail er efterfølgende sendt. Præsentation af projektet på konferencer blev diskuteret. To muligheder blev overvejet: LSP-konference i Bergen i februar. Nordterm 2003 finder sted i Sverige, Henrik Nilsson deltager i organisationsarbejdet for Nordterm. I den nuværende fase er det mest realistisk med poster presentations. 26.09.02/LW