Kort rapport om året 2011 på Oqaaserpassualeriffik



Relaterede dokumenter
De 7 bedste tips til din ERPimplementering

Vejledning til DTU DOC & RSS Feeds

Formandens beretning.

Prædiken. 12.s.e.trin.A Mark 7,31-37 Salmer: Når vi hører sådan en øjenvidneskildring om en af Jesu underfulde

Anti Fart. kampagne. Kom it. Jim Gislinge CELF

Adobe Acrobat Professional 11. ISBN nr.:

IT undervisning. Digitale medier. Skræddersy dit eget forløb! Office

Prædiken til 9. søndag efter trinitatis, Jægersborg kirke Salmer: v. 583 // v.7 697

U N G E F R A F L Y T T E R E P U S T E R N Y T L I V I D E R E S H J E M E G N

Bilag 2: Elevinterview 1 Informant: Elev 1 (E1) Interviewer: Louise (LO) Tid: 11:34

Fri software for Microsoft Windows. Velkommen! V/ Carsten Agger,

Referat netværksmøde for e-dok nøglepersoner, HEV 18. Nov 2014

SYTTEN INFO. Hent dit eget eksemplar på DET ER RIGTIG GODT JEG VED, HVAD JEG IKKE VED. Læs formandens jule og nytårshilsen på side 3

Det islandske ordklasseopmærkede korpus MÍM Sigrún Helgadóttir

Sprogteknologiske resourcer for islandsk leksikografi

Pause fra mor. Kære Henny

Konflikter kan klares: -om at løse hverdagskonflikter. (af Ingegred Edman Ståhl)

DE KAN IKKE TALE, MEN HVOR KAN DE SIGE MEGET!

Media College Aalborg Side 1 af 11

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau

Baggrund for dette indlæg

Rollespil Projektsamarbejde Instruktioner til mødeleder

PRODUKTINDEKS. S3 support 26. Vil jeg få en fejlmelding på min S3, hvis der opstår problemer? 27. Vil jeg modtage teknisk support på min ipad mini?

Hvorfor skal vi bruge objekt orienteret databaser?

Indhold i [ klammer ] er udeladt af redaktionen efter ønske fra Karin.

Margit Gade. Dansk med it. Vis mig hvordan! TRIN

Accelerace og Green Tech Center kommer nu med et unikt tilbud om udvikling af din virksomhed Green Scale Up

Spørgeskema nr.: Uge SPØRGESKEMAUNDERSØGELSE AF DE DANSKE KUNSTMUSEER. Fakta (interviewerens noter) telefonnummer

Vejledning: Brug GGs trådløse netværk Side 1 af 11

Dynamics AX hos Columbus

Björk Ingimundardóttir Gemensam nordisk publicering. Kære kolleger.

Informationsteknologi D Gruppe 16 Opgaver. Gruppe 16. Informationsteknologi D

Er ressourceforløbet en ny indsats eller bare business as usual? HELLE HOLT, 9. november 2015

Vi er her for at søge. Af Frederikke Larsen, Villa Venire A/S april 2011

Forandringer i et menneskes liv sker igennem dets relation til andre mennesker. Derfor er det fornuftigt - eller måske bare naturligt - at drage de

Tale til Bedre mobilitet konference om en trængselsafgift i Hovedstaden der afholdes den 5. december 2011 i København

Medfølende brevskrivning Noter til terapeuten

Harald Børsting 1. maj 2014

Salgsledelse den 9. maj 2012

Det er mit håb er, at I vil gå herfra med en tiltro og opbakning til, at vi kan gøre Vangeboskolen til en skole, vi alle kan være stolte af.

Nyhedsbrev Nr

Gør den svære samtale til et frugtbart samarbejde

Håndbog i elektronisk fakturering. for dig der sælger til det offentlige

Thomas Ernst - Skuespiller

Projektet Kontrolleret fagsprog til danske virksomhedstekster. Rapport nr. 1. Behovsanalyse

Håndbog i elektronisk fakturering

Samråd ERU om etiske investeringer

Prædiken til 2. s. i fasten kl i Engesvang

16.s.e.t. 20. sep Høstgudstjeneste.

%%% & ' ( ' ' ) * +,-&. ".. " #

Guide: Er din kæreste den rigtige for dig?

N. KOCHS SKOLE Skt. Johannes Allé Århus C Tlf.: Fax: kochs@kochs.dk

Det gør også at vi til stadighed er meget optaget af at sætte Revalidering i fokus og dermed selvfølgelig også vores faggruppe.

Forslag til rosende/anerkendende sætninger

VELKOMMEN TIL: medlemsmøde i Yachtklubben Furesøen

747 Lysets engel 678 Guds fred er glæden (mel. Görlitz) 164 Øjne I var lykkelige (mel. Egmose til 675) 522 Nåden er din dagligdag (mel.

Referat fra bestyrelsesmøde i ledersektionen 8. november 2013 kl

Hvordan er det at være arbejdsmiljørepræsentant?

Benzodiazepinerne spøger stadig

Kommunikationsstrategi

Uddannelsesplanen Hvad handler den om?

Nødhjælpsarbejdere i jakke og slips

Tid til refleksion. - at opdage dét du tror, du ikke ved...

Danskerne ser mere ulovligt TV på nettet

Kingsoft Office som alternativ til Microsoft Office.

Interview med butikschef i Companys Original

Lærer nye styresystemer Installerer programmer som kun kan bruges i ældre versioner

ibelong Er vi fælles om at være alene?

certifiedkid.dk Hej, jeg hedder Lotte og er 12 år. Skal vi skrive sammen? gange om året oplever børn og unge en skjult voksen på internettet.

I disse dage besøger Inatsisartuts finansudvalg og råstofudvalg Danmark.

Bliv afhængig af kritik

Versionsbrev. LUDUS Web version Den 16. august J.nr V

Højskolepædagogik set fra en gymnasielærers synsvinkel

Nordicom-Information 35 (2013) 3-4

IT Support Guide. Installation af netværksprinter (direkte IP print)

Bruger Side Prædiken til 2.s.e.trinitatis 2015.docx. Prædiken til 2.søndag efter trinitatis Tekst. Luk. 14,16-24.

US AARH. Generelle oplysninger. Studie på Aarhus Universitet: uddannelsesvidenskab. Navn på universitet i udlandet: Bishop University.

FOR BETTER UNDERSTANDING. WordFinder. Professional 10. Kvikguide

Mendeley er både en reference manager og et akademisk socialt netværk.

Undersøgelse omkring udvikling og anvendelse af kompetencer

Ledelse. Hovedkonklusion. 7. maj 2015

SYTTEN INFO. Hent dit eget eksemplar på DET ER RIGTIG GODT JEG VED, HVAD JEG IKKE VED. Læs formandens jule og nytårshilsen på side 3

IT Support Guide. Opsætning af netværksinformationer i printere

Manual for installering og brug af IE-spyad af Anette B. Overgaard

Prædiken til 3. søndag efter påske, Joh 16, tekstrække

HUSTE,JEFORHØJF,LSER. Formandens beretnins om året der sik oq lidt om at undlade at så i panik!

Mendeley er både en reference manager og et akademisk socialt netværk.

Referat fra sidste møde Udsendt og godkendt via mail (også vedhæftet denne mail)

OpenOffice.org forberedelser

Vejledning til referencehåndteringssystemet. Forsvarets Bibliotekscenter Anita Elleby

Arbejdsmiljøekspert dumper gymnasiers trivselsmålinger

Skriv med CD-ORD 8. Ordbogen.com

Dårlige tolke truer behandlingen i sundhedsvæsenet

Formanden orienterer

Masterclass i Tænk ud af boksen Idégenerering. Oplevelsesøkonomi. Design din egen forretningsmodel Brugerdreven Innovation

Guide: Undgå ensomhed i dit parforhold

Naboens søn arver dig

RARRT De 5 vigtigste trin til at gøre dit barn robust

Slægtsforskerforeningen for Vordingborg og Omegn

Vurdering af Speak and Translate Elektronisk Tolk

Transkript:

Kort rapport om året 2011 på Oqaaserpassualeriffik 1. Arbejdet kører planmæssigt 2. Vi har forberedt 3 større gennembrud i 2012 3. Andre forhold 4. Problemerne 1. Arbejdet kører planmæssigt Den mest tidskrævende arbejdsopgave i 2011 har været at få automaten optimeret, hvilket er en opgave, vi fortsat arbejder hårdt på. Desuden opgraderer vi løbende den tresprogede leksikalske database Katersat, der efterhånden har en størrelse og en dækningsgrad, der gør den til den ubetinget største ordbogsressource Grønland nogensinde har haft. Endelig er en stor del af 2011 gået med det meget ambitiøse projekt at tilbyde Beatrine en egentlig MA uddannelse i Language Technology sideløbende med hendes cand.mag. uddannelse i uddannelsesstillingen på, så Beatrine har måttet investere betydeligt i sin uddannelse for at leve op til de meget betydelige krav, konstruktionen stiller til hende. 1.1 Automaten optimeres Automaten har som bekendt efterhånden nået en betydelig dækningsgrad, men det betyder samtidig, at hver eneste lille tilføjelse af nyt leksikalt eller morfologisk materiale nu genererer mange millioner mulige, men næppe sandsynlige ord. Kombinatorikken er helt enkelt svimlende og begynder at nærme sig grænsen for, hvad selv de hurtigste computere magter at håndtere, således at Kukkuniiaat version 3.0 uden optimering ikke vil kunne køre ordentligt på normale maskiner. Der er altså ikke længere nogen vej uden om, så vi har måttet starte en sorteringsproces, således at (i) de hundredtusindvis af dobbeltformer af typen 1. = 2. oqaasileriffik = 3. oqaasileri+vik = 4. oqaaseq+liri+vik reduceres/ slettes helt (ii) mulige, men usandsynlige konstruktioner ikke genereres. Det er en meget tidskrævende proces, men vi er allerede kommet et godt stykke og har efterhånden nedbragt kompileringstiderne fra 20-25 minutter til omkr. 15 minutter. Dette er stadig i overkanten og skaber fortsat problemer således at fx Kukkuniiaat til Mac fortsat kun kan tilbydes til de allerhurtigste maskiner. Men arbejdet fortsætter og vi påregner at være nede på kompileringstider på lidt over 10 minutter før sommeren. En automat af den størrelse vil kunne køre fornuftigt på næsten hvad som helst. 1.2 Katersat opdateres løbende Vedligeholdelsen og opdateringen af Katersat er et arbejde, der på mange måder befinder sig i grænselandet mellem "normalt" sprognævnsarbejde og Oqaaserpassualeriffiks primære forpligtelser som udviklere af grønlandsk sprogteknologi. Vi har desværre ikke ressourcer til at give arbejdet, hvad det egentlig fortjener, men det er samtidig et arbejde vi ikke kan lade være ugjort selv om vi ikke helt opfatter det som vort ansvar. Uden en stor national ordbank kan vi nemlig ikke bygge den fritekstparser, der er det endelige mål for Oqaaserpassualeriffiks virksomhed og som er forudsætningen for al fremtidig grønlandsk sprogteknologi. Vi

har derfor introduceret en rutine, hvor vi opdaterer Katersat løbende i de mindst produktive timer sidst på arbejdsdagene. Katersat indeholder ialt 242.600 opslagsord og er med sine 83.348 grønlandske poster (leksemer og/eller eksempler) langt, langt den største ordbogsressource Grønland hidtil har set. Dertil kommer, at den med sine 79.663 semantisk annoterede danske leksemer er en umådeligt effektiv kilde for fremtidige grønlandske orddannelser og for en grønlandsk leksikologi, der også kan behandles maskinelt, hvilket er et ubetinget krav til AL moderne leksikografisk virksomhed. Endelig kan det anføres, at Katersat pt. indeholder 27.954 engelsksprogede opslag. Den er altså efterhånden en reel grønlandsk-engelsk-grønlandsk ordbog med en ikke ubetydelig dækningsgrad. Opdateringstakten er som nævnt langsommere end vi kunne ønske den, men det skal dog anføres, at vi i 2011 har redigeret (mere eller mindre) i 12.776 poster. Af disse er 3.971 nye poster. 1.3 Beatrines uddannelse er i gang 2011 var også året, da Beatrine kom i gang med sin uddannelse som professionel sprogteknolog. Uddannelsen er med udstrakt velvilje fra Göteborgs universitet etableret som et samarbejde mellem, Ilisimatusarfik og Göteborg. Det bør i denne forbindelse nævnes, at hendes uddannelse kun er kommet i gang på gr. af bevillingen fra Velux. Vi har helt enkelt ikke formået at råbe Selvstyret/ KIIIN op i denne sag, så nu har vi besluttet at prioritere sådan, at vi selv betaler hendes uddannelse af projektets fondsmidler. Vi mener fortsat, at dette er en dybt urimelig løsning, men vi ser desværre ikke noget alternativ. Timingen er oven i købet ikke optimal, for der er tale om et ualmindeligt tæt forløb, der stiller enorme krav til Beatrine både om tilstedevær og selvstændigt arbejde, krav der er meget vanskelige at honorere for en relativt nybagt mor. Men vi ser ingen anden udvej end at presse citronen selv om situationen langt fra er optimal for hende. Uddannelsen burde - som vi i en årrække har forsøgt at skabe forståelse for - have været etableret for længst. Undertegnede nærmer mig stærkt pensionsalderen og bortset fra Beatrine er der ingen, der kan tage over, hvor jeg kommer til at slippe, og selv Beatrine vil stadig have problemer på en række af de vidensområder, vi nødvendigvis må kunne dække for at virkeliggøre det grønlandske sprogteknologiske projekt. Det er en meget tidskrævende proces at etablere den tredobbelte kompetence af lingvistik, datalogi og projektstyring uden hvilken projektet ikke kan gennemføres. Der burde altså hurtigst muligt etableres målrettet uddannelse af yderligere et par personer for at sikre, at de sidste 5 års arbejde ikke skal tabes på gulvet, hvis en af os af den ene eller anden årsag kommer til at forlade projektet. 2. 2011 har forberedt 3 større gennembrud i 2012 Ud over de daglige opgaver har vi i 2011 brugt rigtigt megen tid på at retablere mulighederne for formidling af vore resultater efter det internationale krak i stavekontrolindustrien og vi er nu kommet rigtigt langt også med talesyntese, som er et helt nyt område i s regie, men som ikke har kunnet etableres uden en vis mængde sprogteknologi i startfasen, hvorfor Oqaaserpassualeriffik i en overgangsperiode direkte er indblandet i arbejdet.

2.1 Kukkuniiaat version 3.0 Kukkuniiaat blev opgraderet til version 2.0 med ca. 90% dækning for godt 4 år siden. Umiddelbart derefter måtte det sprogteknologiske projekt som bekendt nedlukkes i en periode på grund af manglende finansiering således at hele 2008 stort set kun var nødtørftig vedligeholdelse og "damage control" i et strandet projekt midt i en udvikling, der jo aldrig går i stå. Det har været dyrt i både penge og manglende progression. Bl.a. skete der det, at Windows7 MSOffice2010 kom på markedet uden at vi kunne tilbyde Kukkuniiaat til disse versioner og vores hidtidige leverandør, finske Lingsoft, og det eneste alternativ, hollandske Polderland, begge gik konkurs og lukkede virksomhederne. Vi kunne således hverken få kompileret version 3.0, som har været klar fra vores side med en dækningsgrad omkr. 95% i flere år nu, eller få den gamle version 2.0 opgraderet til brug med Office2010. Situationen har betydet en masse ærgerlig spildtid i frustrerende dialoger med Microsoft og alternative leverandører, der enten ikke har kunnet levere varen alligevel eller har været eksorbitant dyre, så det på forhånd har være udelukket at anvende dem. Endelig i 2011 lykkedes det vores programmør at skaffe den nødvendige licens til at arbejde i intern MS kode og dermed - vistnok som den eneste i Norden - blive i stand til at tilbyde tilpasning af vore programmer til Microsoft's programflader og at gøre det til en betalelig pris. s sekretariatschef har nu hyret ham til at implementere Kukkuniiaat ikke alene i MSWord men også i InDesign til Mac, så også aviserne får adgang til at bruge stavekontrollen. Programmerne påregnes klar til download inden for få måneder fra nu af. 2.2 Kukkuniiaat til OpenOffice og LibreOffice Oqaaserpassualeriffik har i samarbejde med Tommi Pirinen fra Helsingfors universitet udviklet plug-ins til Kukkuniiaat således at den nu kører tilfredsstillende under LibreOffice og Oracle's OpenOffice på såvel Mac som Linux og på både 64-bits og 32-bits maskiner. Vi har dog som nævnt stadig det problem, at automaten er blevet så stor, at den ikke kører tilfredsstillende på svage og mellemkraftige maskiner, så vi har hidtil været tilbageholdende med at markedsføre dem. Vi regner dog som nævnt med at problemerne bliver løst i 2012 efterhånden som vi får den grundlæggende automat optimeret. 2.3 Talesyntese har besluttet i en overgangsperiode at indgå i arbejdet med at udvikle en grønlandsk talesyntese. Vi har ikke ressourcer til et fuldstændigt projekt, men vi har lovet de firmaer, der arbejder på at skabe den kunstige stemme, at levere de nødvendige input-data og senere indgå i arbejdet som kvalitetssikring. Vi har i den sammenhæng kortlagt de godt 2.600 mulige lydsammenstød af tre lyd på grønlandsk (de såkaldte trigrammer) og genereret en ordliste med ordeksempler, der dækker samtlige lydkombinationer. Disse ord er nu i samarbejde med Mikroværkstedet a/s indtalt på Audioteket i Odense og lydene er segmenteret af Jesper Lisby Højvang, der er ansat i Mikroværkstedet og har en Ph.d. i netop

lydsegmentering. Den allerførste prototype af en grønlandsk stemme så dagens lys i onsdags (den 18.). Den er pt. slet ikke redigeret og stadig ganske fejlfyldt, men allerede her i den rå klipning læser den faktisk nogenlunde forståeligt. Jeg vedlægger et par tilfældigt valgte eksempler til almindelig orientering. 3 Andre forhold Jeg er fortsat udpeget til NMR's ekspertkomité, ASTIN (Arbejdsgruppen for Sprogteknologi I Norden). Vi arrangerede i foråret workshoppen 'Visibility and Availability of LT Resources' på NoDaLiDa konferencen i Riga. Efterfølgende redigerede jeg sammen med Sjur Nørstebø Moshagen proceedings fra konferencen. De er udgivet på NEALT Proceedings Series, Vol. 13 2011 Beatrine deltog også i konferencen. Det fremgik iøvrigt i Riga som det også gjorde det på Malta under verdenskongressen for sprogteknologer, at det grønlandske sprogteknologiske projekt påkalder sig stor opmærksomhed internationalt. Vi høster megen anerkendelse for at have tacklet den komplicerede morfologi teknologisk og der er rigtigt mange, der er tydeligt imponerede af at "lille" Grønland kan rumme et projekt med et ambitionsniveau så højt som vores. Jeg modtog i 2011 en bevilling på 300.000 DKK til udvikling af intelligente materialer til fremmedsprogsundervisningen i grønlandsk. Planen var at indbygge den nye grønlandske sprogteknologi i konkrete læringsprogrammer på samme måde som Oahpa projektet i samisk. Men desværre lykkedes det ikke at finde nogen med de fornødne kompetencer til at udføre den praktiske del af arbejdet, så jeg har måttet anmode om udsættelse. Pengene er nu overført til anvendelse i 2012 og håbet er, at jeg kan finde en medarbejder med den fornødne interesse og den fornødne viden til at vi kan få teknologien oversat til faktisk læring, men jeg må desværre erkende, at jeg ikke er særligt optimistisk. 4. Problemerne Det burde være fremgået af det ovenstående, at vi ikke mangler arbejde! Men vel også at vi allerede har opnået store resultater og har udsigt til flere allerede på den korte bane. Men der er nogle forhold, der kunne gøre processen meget nemmere. 4.1 Uddannelse Beatrine er som nævnt i gang med en uddannelse, men det er langt fra nok. Grønlandsk sprogteknologi er nemlig ikke en enkelt strømning i tiden. Tværtimod vil sprogteknologi være en helt integreret del af sprogrøgten i fremtiden - faktisk i den grad, at mange observatører går så vidt som til at mene, at et sprog uden aktiv teknologi allerede er døende. Personlig tror jeg ikke på, at dette vil vise sig på en enkelt eller to generationer, men jeg er sikker på, at udsagnet er korrekt i et perspektiv på bare 100 år eller så. Og vel at mærke således at turen mod enden vil være en kontinuert forarmning af sproget. Jeg mener faktisk, at denne nedtur allerede er begyndt og at det er på høje tid at tage sagen alvorligt. Lad mig skære synspunktet ud i pap! Med teknologiens hjælp kan vi "opdrage" samtlige grønlændere på meget kort tid som vi så det med faldet af forkerte bindestreger eller brugen af 'vut' i stedet for 'gut' efter at Kukkuniiaat blev almindeligt udbredt - en gevinst, vi iøvrigt har spillet os af

hænde fordi vi ikke har været i stand til at tilbyde Kukkuniiaat til de nyere versioner af MSOffice. På grund af den semantiske tagging har vi kunnet etablere en godt nok 'quick-anddirty', men nogenlunde velfungerende grønlandsk-engelsk-grønlandsk ordbog på nettet for mindre end månedsløn til en ordbogsredaktør. Ud fra sprogteknologisk tænkning har vi på få ugers arbejde kunnet levere den råvare, der har gjort det muligt at gå i gang med grønlandsk talesyntese og dermed tændt et håb for blinde, afatikere og handicappede og vi har skabt forudsætningen for en effektiv behandling af ordblinde og små børn med læseproblemer. Og vi kunne nævne mange flere eksempler på anvendt sprogteknologi allerede. Vi kan helt enkelt allerede nu meget, meget mere med det grønlandske sprog end de fleste overhovedet drømmer om. Og om kort tid kan vi endnu mere, for processen kører hurtigt. Men vi kunne køre meget, meget hurtigere, hvis vi kunne skaffe personale med den fornødne indsigt i grønlandsk. Det er vores achilleshæl. Der er helt enkelt ingen, der er i stand til at beskrive modersmålet på et niveau af præcision, så beskrivelsen kan "oversættes" til noget, der kan anvendes datalingvistisk. Dette udsagn gælder også professionelle tolke og skolelærere. Vi har forsøgt at inddrage personer med disse uddannelser, men må erkende, at heller ikke de kan håndværket godt nok. Så første forudsætning for en vellykket grønlandsk fremtid med sprogteknologi er en radikal professionalisering af modersmålsfagets instrumentelle aspekter. Der må gøres op med den holdning at modersmålet 'kun' er kultur og identitet. Modersmålet er også er redskab til at erkende omverdenen med dens moderne krav. 4.2 Behovet for en national tekstbank (corpus) Vi bruger uforholdsmæssigt megen tid på dårlige teksteksempler fordi der ikke findes en national tekstsamling på grønlandsk. Når jeg fortæller det i faglige sammenhænge ude i Verden, bliver jeg mødt med vantro. En tekstbank er nemlig ganske ukompliceret at tilvejebringe. Den slags arbejde kræver ikke meget specielle kompetencer, blot evnen til at læse indenad og til at organisere stoffet på en ordnet måde. Samtidig er jo tekstsamlingerne næsten alle andre steder end i Grønland selve udgangspunktet for effektiv sprogrøgt og effektivt ordbogsarbejde. Ordentlige tekstsamlinger vil reducere vore udgifter i både penge og tid til eksempelsøgning (fx i lærebogsproduktionen og i L1 og L2 undervisningen) og i de forskellige svartjenester. Gode tekstsamlinger vil gøre det muligt for os at teste vore programmer løbende i stedet for som nu at skulle etablere ad hoc tekster og bruge masser af kræfter på at afluse dem for slå- og stavefejl i stedet for at bruge kræfterne på at lave bedre programmer, og de vil gøre det muligt for os at udvikle prisbillige ordbøger og terminologier på basis af systemer, der næsten skriver sig selv. Det er kort sagt med dyb undren, vi må konstatere, at der endnu ikke er taget initiativ til at etablere en national grønlandsk tekstbank. Per Langgård Chefkonsulent