Efter-redigering af maskinoversatte tekster

Specialeafhandling Efter-redigering af maskinoversatte tekster En empirisk analyse af udvalgte dele af eksisterende revisionsteori anvendt på artikler oversat med Google Oversæt Forfatter: Katja Nielsen Eksamensnr.: 402289 Studium: Cand.ling.merc engelsk, Tolk og Translatør Afleveringsdato: 1. september 2011 Vejleder: Sandro Nielsen, ISEK Handelshøjskolen, Århus Universitet Antal typeenheder (ekskl. blanktegn): 120.417

Indholdsfortegnelse ABSTRACT... 3 1. INDLEDNING... 5 1.1 PROBLEMFORMULERING... 7 1.2 AFGRÆNSNING... 7 1.3 EMPIRI... 8 1.4 METODE OG SPECIALETS OPBYGNING... 9 2. MASKINOVERSÆTTELSE...10 2.1 STATISTISK MASKINOVERSÆTTELSE (SMT)... 10 2.1.1 Sprogmodel... 11 2.1.2 Frase-baseret oversættelsesmodel... 12 2.2 GOOGLE OVERSÆT... 13 3. EFTER-REDIGERING...14 3.1 REVISION VS. EFTER-REDIGERING... 14 3.2 TAUS... 15 3.2.1 Retningslinjerne... 16 3.3 BRIAN MOSSOPS TEORI... 18 3.3.1 Revisions parametre... 19 3.3.2 Omfanget af revisionen... 26 3.3.3 Revisionsprocessen... 28 4. MIN EFTER-REDIGERINGSPROCES...30 4.1 ANALYSEFREMGANGSMETODE... 31 5. ANALYSE AF ARTIKLERNE FRA BBC...32 5.1 ANALYSEN... 32 Gruppe A: Problemer med betydningsoverførsel (Overførsel)... 32 Gruppe B: Problemer med indhold (Indhold)... 38 Gruppe C: Problemer med sprog og stil (Sprog)... 40 Gruppe D: Problemer med den fysiske præsentation (Præsentation)... 47 5.2 SAMMENDRAG... 47 6. ANALYSE AF ARTIKLERNE FRA THE ECONOMIST...48 6.1 ANALYSEN... 49 GRUPPE A: PROBLEMER MED BETYDNINGSOVERFØRSEL (OVERFØRSEL)... 49 Gruppe B: Problemer med indhold (Indhold)... 53 Gruppe C: Problemer med sprog og stil (Sprog)... 54 6.2 SAMMENDRAG... 61 7. RESULTAT...61 8. KONKLUSION...64 8.1 HVAD ER EFTER-REDIGERING?... 64 8.2 HVORDAN EFTER-REDIGERER MAN?... 64 8.3 KAN DE FEJL SOM GOOGLE OVERSÆT LAVER KLASSIFICERES EFTER MOSSOPS REVISIONSPARAMETRE?... 65 Side 1 af 69

8.4 KAN BRIAN MOSSOPS REVISIONSTEORI OGSÅ BENYTTES TIL EFTER-REDIGERING AF MASKINOVERSÆTTELSE?... 65 8.5 EFTER-REDIGERING OG DEN PROFESSIONELLE OVERSÆTTER... 66 9. LITTERATURLISTE...68 BILAG 1: Artikel fra BBC Cameron pledges more money to fund child vaccines" BILAG 2: Artikel fra BBC Australia flights begin to resume after ash disruption BILAG 3: Artikel fra The Economist The Berlusconi era will hunt Italy for years to come BILAG 4: Artikel fra The Economist The streets of Athens are in the grip of an ugly mood BILAG 5: Diasshow fra Sharon O Brien Side 2 af 69

Abstract Title: Post-editing of machine translation - An empirical analysis of selected parts of existing revision theory applied to articles translated with Google Translate The development of globalisation has caused an increase in the demand for translations but there are not enough human translators to meet this demand. Therefore, the use of machine translations (MT) has become more widespread in the past decade. Despite the fact that MT has been around since the 1950 s, the perfect MT-system does not exist and therefore human translators need to learn how to post-edit texts which have been translated by a machine. The discipline of professional post-editing (performed by trained translators) is still reasonable new and as of yet no post-editing theory has been formulated. Instead a number of guidelines are used to help translators to post-edit. Thus, the main question of this thesis is: Can Brian Mossop s revision theory also be applied to post-editing machine translations? To answer the main question three sub-questions are also answered: What is post-editing? How do you post-edit? Can the errors made by Google Translate be classified according to Mossop s revision parameters? In order to answer the mentioned questions I have post-edited the Danish machine translation of four English articles (two from BBC and two from The Economist), based on selected parts of Mossop s revision theory. All four articles were translated with Google Translate. The overall quality level for the finished translations was based on TAUS guidelines for a Publishable text. Chapter 2 briefly introduces statistical machine translation (SMT) the MT approach used by Google Translate. SMT contains a translation model, which produces target hypotheses that corresponds to the source sentence, and a language model, which ensures that the output is as grammatical and fluent as possible. Unlike other MT approaches SMT does not contain any grammatical rules. This chapter also contains a short description of Google Translate. Chapter 3 starts with a definition of post-editing and revision and a comparison of the two disciplines. This is followed by an introduction of TAUS (Translation Automation User Society) and its guidelines for post-editing. The guidelines are divided into two quality levels: Good Enough and Side 3 af 69

Publishable. The guidelines for a Publishable text have been used for this thesis. Finally this chapter outlines the theoretical background for this thesis. As the main question indicates the main theory used for this thesis is Mossop s revision theory, more specifically his revision parameters, degrees of revision and revision procedures. Chapter 4 outlines my post-editing process as well as the method I used for my analysis. I read the machine translation all the way through before I made a comparative check with the source text. That way I saw the translation from the user s point of view. Chapter 5 contains the analysis of the articles from BBC which is based on Mossop s twelve revision parameters. Six of the parameters were relevant for this analysis: Accuracy, Completeness, Logic, Tailoring, Idiom and Mechanics. Although, Completeness was slightly modified to match a type of error only seen in machine translations. Normally this parameter deals with omission, but a MTsystem never omits any element. Instead it will transfer any unknown elements to translation, meaning that a machine translation contains source text element. These have to be found and translated. This chapter briefly sums up the relevant parameters. Chapter 6 contains the analysis of the articles from The Economist and here almost the same parameters were relevant: Accuracy, Completeness, Logic, Smoothing, Idiom and Mechanics. Chapter 7 presents the result of the analysis. It showed that the four articles contained 285 errors and of them 114 belonged to Mechanics - which is 40%. Mechanics deals with grammar, spelling and punctuation and generally this type of errors does not interfere with the message of the text. With 78 errors Accuracy is the second largest parameter and this is a serious problem, because Accuracy deals with mistranslations. Mistranslations interfere with the message of the text and they can have serious consequences, especially if the text is used to make important decisions. Chapter 8 is the conclusion and here the four questions mentioned above are discussed individually. The conclusion is that while Mossop s revision parameter can be used when post-editing the revision theory as a whole cannot be transferred to the discipline of post-editing. Instead a post-editing theory should be created based on the revision theory. The post-editing theory could complement the guidelines which are in use already. Characters without spaces in the abstract: 4.033 Side 4 af 69

1. Indledning I forbindelse med at samfundet er blevet globaliseret, er efterspørgslen efter oversættelser steget markant, og der er ikke længere nok humane oversættere (Christensen/Schjoldager 2011; side 33) til at dække efterspørgslen. Derfor er der i takt med den teknologiske udvikling blevet udviklet adskillelige hjælpemidler, som kan lette en oversætters arbejde, f.eks. elektroniske ordbøger, termbaser etc., som betyder, at oversættere kan nå mere i løbet af en arbejdsdag. Sideløbende er der blevet udviklet flere MT-systemer (machine translation), som oversætter tekster automatisk, og hvis teksten bliver behandlet af en human oversætter, er dennes opgave at redigere teksten før og/eller efter, at teksten bliver kørt gennem et MT-system. Tekstens skopos bestemmer, hvor meget en tekst bliver redigeret, men en stor del af de maskinoversatte tekster bliver dog ikke redigeret, da de enten ikke skal udgives, og derfor ikke behøver at være perfekte, eller fordi det er private personer, som bruger en gratis oversættelsestjeneste som Google Oversæt, hvor formålet kun er at få et overblik over en tekst. I de seneste år er efter-redigering af maskinoversatte tekster, der skal udgives dog blevet mere udbredt. Drømmen om automatiske oversættelser er efterhånden ved at være gammel, og de første systemer så allerede dagens lys i 1950 erne. Her 60 år senere eksisterer der stadig ikke et MT-system, som kan oversætte en tekst perfekt. Det er blandt andet fordi, forventningerne til maskinoversættelser oprindeligt var alt for høje og urealistiske. Man mente, at sprog var en kode, man kunne oversætte ord-for-ord uden hensyn til sætningsstrukturer, og derved opnå fully automated high quality translation (Christensen/Schjoldager 2011; side 33). De systemer der oversatte ord-for-ord kaldes for førstegenerationssystemer. Sprogfolk ved, at ord-for-ord-oversættelse, eller direkte oversættelse som det også kaldes, sjældent giver et godt resultat som et minimum er man ofte nødt til at ændre sætningsstrukturen. Problemet med de første systemer var, at de var udviklet af teknikere, som ikke havde nogen lingvistisk erfaring, og sprogfolk blev kun taget med på råd i forbindelse med systemernes ordbøger. Det var først i forbindelse med andengenerationssystemerne, at sprogfolkene blev involveret i udviklingen af systemerne, og udover ordbøger kom systemerne også til at indeholde grammatiske regler. (Hutchins 1986; kapitel 19). På trods af at sprogfolk nu er blevet involveret i udvikling af MT-systemer, findes der dog ikke et system, som kan producere korrekte tekster, men i dag er forventningerne til maskinoversættelser mere realistiske (i hvert fald inden for oversættebranchen), og man har indset, at maskinoversatte tekster af høj kvalitet kun kan opnås i samarbejde med en human oversætter i form af før- og efterredigering. Det betyder, at de professionelle oversættere skal indstille sig på, at deres Side 5 af 69

arbejdsopgaver engang i den nærmeste fremtid kan komme til at inkludere efter-redigering af maskinoversatte tekster. Det skal nævnes, at lægfolk stadig har urealistiske forventninger til maskinoversættelser, da de ikke forstår, hvor kompliceret sprog og selve oversættelsesprocessen i virkeligheden er. Efter at have søgt både på biblioteket og på internettet, har jeg ikke fundet en teori, der fortæller, hvordan man udfører en efter-redigering. I stedet benytter man retningslinjer, der fortæller hvilke tiltag som en efter-redigerer bør og ikke bør foretage sig, for at opnå den ønskede kvalitet af målteksten. Retningslinjerne er overordnede og går ikke i dybden med de typer fejl, som man skal kigge efter. Derfor synes jeg, det kunne være interessant at undersøge om Brian Mossops revisionsteori også kan benyttes til efter-redigering. Mossop er fransk-til-engelsk translatør, og han har arbejdet som revisor siden 1976. Derudover har han undervist i revisionsteori siden 1979. Jeg har valgt at basere dette speciale på Google Oversæt, da det er en 100 % gratis oversættelsestjeneste i modsætning til andre MT-systemer, hvor man skal betale for at få at kunne benytte systemet ubegrænset, som for eksempel Babylon. Desuden kan den nyeste version af SDL Trados, Studio 2009, linkes op til Google Oversæt, hvilket betyder at Google Oversæt nu benyttes til professionelle oversættelser. Jeg har desuden valgt at fokusere på tekster, der er oversat fra engelsk til dansk, da det stadig er forholdsvis nyt, at man benytter MT-systemer til at oversætte til dansk - tidligere fokuserede man på de store sprog som russisk, tysk, engelsk og fransk. Google Oversæt har kun understøttet (Google oversæt 2011; Hvilke sprog understøtter Google Oversæt) dansk siden maj 2008 (Google Translate 2011; Language options). Det er vigtigt at bemærke, at Google Oversæt hele tiden bliver videreudviklet, og dette speciale er derfor kun et øjebliksbillede af Google Oversæt i april-september 2011. En lignende undersøgelse i de kommende år vil måske indeholde andre typer fejl end dem som bliver præsenteret i dette speciale. Da målgruppen for dette speciale er Tolk og Translatør-studerende, som har en interesse for maskinoversættelse og efter-redigering af maskinoversatte tekster, vil jeg ikke oversætte eventuelle engelske citater. I Danmark er der en tendens til at overføre engelske begreber til dansk frem for at oversætte dem, og derfor vil der også forekomme engelske begreber i dette speciale. I de tilfælde hvor jeg har valgt at overføre et engelsk begreb, vil jeg ikke komme med oversættelsesforslag. Side 6 af 69

I dette speciale vil jeg benytte termen maskinoversat tekst i forbindelse med rå oversættelser, det vil sige maskinoversatte tekster, der ikke er blevet efter-redigeret, mens termen måltekst vil blive brugt i forbindelse med maskinoversatte tekster, der er blevet efter-redigeret. Litteraturlisten for dette speciale indeholder adskillelige hjemmeside, og da de ikke benytter sidenumre, har jeg, de steder hvor det er muligt, valgt at skrive titlen på det relevante afsnit i mine kildereferencer. Titlerne er skrevet med kursivt. 1.1 Problemformulering Efter-redigering er stadig en forholdsvis ny disciplin, og selvom om der er skrevet mange artikler om maskinoversættelser og efter-redigering af disse, har jeg ikke kunne finde nogen egentlig teori, der forklarer, hvordan man efter-redigerer, og hvilke type fejl man skal kigge efter. Derfor vil dette speciale være baseret på følgende spørgsmål: Kan Brian Mossops revisionsteori også benyttes til efter-redigering af maskinoversættelser? For at kunne besvare mit hovedspørgsmål er jeg også nødt til at finde svar på følgende underspørgsmål: Hvad er efter-redigering? Hvordan efter-redigerer man? Kan de fejl som Google Oversæt laver, klassificeres efter Mossops revisionsparametre? For at kunne besvare disse fire spørgsmål, har jeg udvalgt fire engelske artikler fra henholdsvis The Economist og BBC. Artiklerne er blevet oversat af Google Oversæt, og jeg vil analysere dem baseret på Mossops revisionsteori. 1.2 Afgrænsning Som nævnt findes der adskillelige hjælpemidler, en oversætter kan benytte til at effektivisere sin oversættelsesproces. Dette speciale vil dog kun omhandle MT og maskinoversatte tekster, nærmere bestemt maskinoversatte artikler. I nogle tilfælde bliver kildeteksten redigeret før den bliver kørt igennem et MT-system, men i dette speciale vil jeg kun fokusere på efter-redigering af maskinoversatte tekster. Side 7 af 69

Eftersom dette er et sprogligt speciale, vil jeg kun kort beskrive, hvordan Google Oversæt fungerer, da et MT-systems fremgangsmåde naturligvis har indflydelse på oversættelsen, men jeg vil ikke komme nærmere ind på de tekniske forskelle mellem Google Oversæt og andre MT-systemer. 1.3 Empiri Som nævnt i problemformuleringen, er formålet med dette speciale at undersøge maskinoversættelsen af udvalgte engelske artikler. Jeg har valgt at fokusere på artikler, da der benyttes et alment og varieret sprog, hvor mange af termerne ikke kun har én ækvivalent på målsproget, men hvor oversættelsen ofte vil afhænge af konteksten. Hvorimod en medicinsk eller teknisk tekst ofte vil indeholde mange termer, som enten ikke oversættes, eller som kun har én ækvivalent på målsproget, hvilket er en fordel når man benytter et MT-system. Som min empiri har jeg udvalgt fire engelske artikler, to fra www.bbc.co.uk og to fra www.economist.com, som jeg har oversat til dansk med Google Oversæt. Grunden til at jeg har valgt to forskellige nyhedsformidlere, er, at hver nyhedsformidler har sin egen skrivestil, hvilket kan påvirke en maskinoversættelse. Både BBC og The Economist er britiske nyhedsformidlere, men derudover er de meget forskellige. BBC (British Broadcasting Corporation) er Storbritanniens public-service-udbyder af radio og tv (About the BBC 2011). Udover adskillelige tv-kanaler og radiostationer (hovedsagligt nationale) har BBC også en omfattende hjemmeside, hvor man kan finde artikler om aktuelle nyheder. Hvis en situation udvikler sig, vil de relevante artikler løbende blive opdateret. Dette betyder, at journalisterne hos BBC sjældent har ret lang tid til at skrive artiklerne, og de indeholder ofte mange korte sætninger, og afsnittene består kun af 1-2 sætninger. Den korte skrivetid betyder også, at artikler fra BBC nogle gange indeholder småfejl, for eksempel trykfejl. De to artikler fra BBC hedder Cameron pledges more money for child vaccines (2.390 tegn) og Australia flights begin to resume after ash disruption (2.666 tegn) og kan findes i henholdsvis bilag 1 og 2. The Economist er et ugentligt internationalt nyhedsmagasin, som skriver om økonomi, politik, teknologi, samfundsforhold med mere. Alle artiklerne fra det trykte magasin findes også på The Economists hjemmeside. Det faktum at The Economist kun udkommer én gang ugentligt, betyder, at journalisterne har lidt længere tid til at skrive artiklerne. Derudover samarbejder journalisterne tit om artiklerne, så de er mere gennemtænkte end BBCs artikler (About The Economist 2011). Alt dette gør, at artiklerne indeholder længere sætninger og afsnit. Desuden er The Economist kendt for sit til tider farverige sprog og brug af metaforer. De to artikler fra The Economist hedder The Berlusconi Side 8 af 69

era will haunt Italy for years to come (5.350 tegn) og The streets of Athens are in the grip of an ugly mood (4.999 tegn) og kan findes i henholdsvis bilag 3 og 4. De fire artikler er udvalgt tilfældigt uden hensyn til emnet, da det er sproget og ikke emnerne, der er i fokus i dette speciale. Jeg havde dog sat det kriterium, at der ikke måtte være en forskel i længden på mere end 500 tegn mellem artiklerne fra den samme nyhedsformidler. Jeg har kopieret artiklerne, samt oversættelserne fra hjemmesidernes printervenlige version for at undgå reklamer og eventuelle billeder. Artiklerne og oversættelserne har jeg indsat i et Word-dokument, da det er et program, jeg har et godt kendskab til, og som jeg er vant til at arbejde med. 1.4 Metode og specialets opbygning For at kunne besvare spørgsmålene i min problemformulering er det nødvendigt at have en basisviden om maskinoversættelse og mere specifikt om Google Oversæt. Derfor vil jeg i kapitel 2 beskrive Google Oversæt, samt forklare, hvordan et statistisk baseret MT-system fungerer, dog uden at gå i dybden med de tekniske detaljer. Udover at besidde en viden om det system, som udfører maskinoversættelsen, er det også nødvendigt at vide, hvad efter-redigering er, da det er den proces, man skal igennem for at finde fejlene i en maskinoversættelse. Derfor vil jeg i kapitel 3 beskrive og kommentere på revisions-/efter-redigeringsprocessen. Dette kapitel er baseret på Brian Mossops teori og metode fra Revising and editing for translators fra 2007, samt TAUS retningslinjer. Mossop er det teoretiske grundlag for dette speciale, mens TAUS er udarbejdet af professionelle oversættere, der arbejder med efter-redigering, og som derved giver et indblik i, hvordan det foregår i den virkelige verden. Jeg har valgt Mossop som mit teoretiske grundlag, da jeg har stiftet bekendtskab med hans teori i forbindelse med mine studier, og jeg opfatter ham som en troværdig og kvalificeret kilde. En anden årsag til at jeg har valgt Mossop er, at da jeg var til et seminar om efter-redigering af maskinoversættelser med Sharon O Brien fra Dublin City University, diskuterede hun forskellene mellem revision og efter-redigering med udgangspunkt i Mossops revisionsteori. Sharon O Brien har forsket i anvendelsen af sprogteknologi, og hun var med til at udvikle TAUS retningslinjer. Derfor betragter jeg også hende som en troværdig og kvalificeret kilde. I kapitel 4 vil jeg gennemgå min efter-redigeringsproces, samt den fremgangsmetode, som jeg vil benytte i min analyse af de fire maskinoversatte artikler. For at kunne vurdere om man kan benytte Mossops revisionsteori, når man efter-redigerer maskinoversatte tekster, vil jeg i kapitel 5 og 6 analysere de udvalgte artikler med udgangspunkt i Mossops revisionsparametre. I kapitel 5 vil jeg analysere de to artikler fra BBC, og i kapitel 6 vil jeg analysere de to artikler fra The Economist. I kapitel 7 vil gennemgå resultatet af min analyse. Side 9 af 69

I kapitel 8 kommer min konklusion, hvor jeg vil konkludere på de fire spørgsmål fra problemformuleringen individuelt. I kapitel 9 er der en litteraturliste. 2. Maskinoversættelse Inden for maskinoversættelse findes der to hovedkategorier, fuldautomatisk maskinoversættelse og maskinstøttet oversættelse. Maskinstøttet oversættelse er, når oversætteren benytter et program, som sammenligner de enkelte sætninger i kildeteksten med allerede oversatte tekster, og hvis programmet finder et match eller en sætning der ligner, kommer den med et oversættelsesforslag. Et eksempel på sådan et program er SDL Trados. Dette speciale fokuserer dog på fuldautomatisk oversættelse, hvor selve oversættelsen foregår uden menneskelig indblanding. Humane oversættere er dog ofte involveret før og/eller efter en tekst bliver kørt igennem et MT-system, hvor de redigerer kildeteksten (før) og/eller den maskinoversatte tekst (efter). Der findes forskellige fremgangsmåder, når det kommer til maskinoversættelse, for eksempel regel-baseret, eksempel-baseret og statistisk-baseret (O Brien 2011: dias 4 (se bilag 5)). Som nævnt er dette et sprogligt speciale, og jeg vil derfor ikke beskrive alle de forskellige fremgangsmetoder, men kun koncentrere mig om den metode, som Google Oversæt benytter, nemlig den statistiske. Jeg har ikke kunnet finde noget dokumentation om, hvorfor Google har valgt at benytte den statistiske fremgangsmåde, men jeg tror, det er fordi Google har ressourcerne til at opbygge enorme parallelle korpusser, som er forudsætningen for et godt statistisk maskinoversættelsessystem. 2.1 Statistisk maskinoversættelse (SMT) Da jeg har valgt at basere dette speciale på tekster, der er oversat af Google Oversæt, som er et statistisk oversættelsessystem, vil jeg i dette afsnit kort beskrive SMT. Et statistisk maskinoversættelsessystem foretager adskillelige beregninger for at komme frem til en oversættelse, og involverer en del kompliceret matematik 1. Der findes adskillelige beregningsmodeller, men da en beskrivelse af dem alle sammen vil kræve en del plads, samt en indgående forståelse af mekanismerne bag statistisk maskinoversættelse (en forståelse som jeg ikke besidder), vil jeg kun komme omkring de vigtigste aspekter af SMT. 1 For information om matematikken bag SMT se Brown et al. The Mathematics of Statistical Machine Translation fra 1993 Side 10 af 69

Den første statistiske tilgang til maskinoversættelse blev udviklet tilbage i slutningen af 1980 erne af nogle forskere fra IBM. I løbet af et årti blev den statistiske tilgang den mest dominerende inden for MT-systemer. I de sidste 2 årtier er den statistiske tilgang løbende blevet forbedret, blandt andet på grund af den teknologiske udvikling. For eksempel benyttede de første SMT-systemer hovedsagligt en ord-baseret oversættelsesmodel, men i dag benyttes der ofte en frase-baseret oversættelsesmodel. Den vigtigste forudsætning for statistiske maskinoversættelsessystemer er, som nævnt, enorme, parallelle korpusser på de relevante sprog. Google beskriver deres oversættelsesproces således: Når Google Oversæt genererer en oversættelse, søger den efter mønstre i flere hundrede millioner dokumenter for at finde frem til den bedste oversættelse. Ved at registrere mønstre i dokumenter, der allerede er blevet oversat af rigtige oversættere, kan Google Oversæt foretage et intelligent gæt på, hvad der vil være en passende oversættelse.(google Oversæt 2011; Hvordan fungerer det?) Et SMT-system består af en oversættelsesmodel og en sprogmodel. Oversættelsesmodellen sørger for at SMT-systemet producerer målhypoteser, der svarer til kildesætningen, mens sprogmodellen sørger for at outputtet er så grammatisk korrekt og flydende som muligt, hvilket er nødvendigt, da SMT-systemer ikke benytter nogen form for grammatiske regler. (Goutte et al. 2009; 3). 2.1.1 Sprogmodel En sprogmodel er en beregnelig sandsynlighedsfordeling af en ordrækkefølge (oftest en sætning), der forsøger at nærme sig en underliggende stokastisk proces (Goutte et al. 2009; 11). En stokastisk proces er en matematisk model for tidsudviklingen af et fænomen, hvor tilfældigheder spiller en afgørende rolle (Stokastisk proces 2011). Den mest dominerende teknik indenfor sprogmodeller er N-grams-metoden, hvor sætningerne inddeles i såkaldte N-grams. Et N-gram indeholder et forudbestemt antal ord. Der er ingen regler, for hvor mange ord et N-gram kan/må indeholde, men det mest almindelige er tre ord, hvilket kaldes et Trigram. Hvis N-grammet indeholder for mange ord, vil det mindske sandsynligheden for, at der findes en tilsvarende ordrækkefølge i korpusset. N-grams-metoden er ikke perfekt. Hvis et SMTsystem er indstillet til at tjekke Trigrams, men den ikke kan finde en tilsvarende ordrækkefølge i korpusset, giver systemet Trigrammet værdien nul, og oversætter det derfor ikke. Derfor er der blevet udviklet adskillige smoothing -tekniker, som blandt andet gør, at SMT-systemet automatisk vil søge efter Bigrams (to ord) og Unigrams (et ord), hvis den ikke finder et resultat der matcher Trigrammet. Hvis systemet ikke kan finde et match til unigrammet, vil termen blive overført til den Side 11 af 69

maskinoversatte tekst uden at blive oversat. Jeg vil ikke komme nærmere omkring smoothing teknikerne, da de ikke er relevante for dette speciale. (Goutte et al. 2009; 12-13) 2.1.2 Frase-baseret oversættelsesmodel Denne model er baseret på en simpel og intuitiv proces, hvor hver sætning bliver inddelt i sammenhængende fraser (ordrækkefølger af vilkårlig længde), derefter vælger systemet en oversættelse til hver frase, baseret på korpusset, og til sidst bliver målfraserne omdannet til selve oversættelsen. Distributionen af frase-oversættelserne er defineret over et sæt af frase-par, som kaldes frasetabeller. Overførelser af frase-tabeller fra et parallelt korpus er afgørende for frase-baseret oversættelser. Det går ud på, at word-aligne korpusset, hvorefter alle de frase-par, der er kompatible med den relevante word-alignment trækkes ud af systemet under det kriterium, at et gyldigt frase-par ikke må indeholde links til ord udenfor parret. Eksempel: I sætningsparret: Je suis heureux/ I am very happy, der har den følgende word-alignment Je/I, suis/am, heureux/very_happy, består de gyldige frase-par af Je/I, Je suis/ I am og heureux/very happy, men ikke heureux/happy. (Goutte et al. 2009; 20) Problemet med denne model er, at selvom et SMT-system har oversat de individuelle fraser korrekt, er det ikke ensbetydende med, at oversættelsen bliver korrekt, da man ofte er nødt til at ændre på ordstillingen, når man oversætter. De forskellige MT-systemer og deres fremgangsmetoder bliver hele tiden forbedret i takt med den teknologiske udvikling, og i takt med at udviklerne opnår en bedre forståelse for, hvad der er nødvendigt for at lave en brugbar maskinoversættelse. For eksempel, som nævnt ovenfor, var de første oversættelsesmodeller ord-baserede, mens de i dag hovedsagligt er frase-baseret, og det ser ud til, at de i fremtiden vil være syntaks-baseret. Ved at tage højde for syntaks, håber man, at de maskinoversatte tekster vil blive mere flydende og korrekte. Ovenfor har jeg præsenteret nogle grundlæggende ting omkring statistisk maskinoversættelse. I det næste afsnit vil jeg kort præsentere Google Oversæt. Side 12 af 69

2.2 Google Oversæt Google Oversæt er en gratis online oversættelsestjeneste, som er udviklet af Googles forskergruppe, og målet er at kunne gøre oplysninger universelt tilgængelige og brugbare, uanset hvilket sprog de er skrevet på (Google Oversæt 2011; Hvad er Google Oversæt). I skrivende stund (maj 2011) understøtter Google Oversæt 57 sprog, og den tester 6 alfasprog. Google arbejder løbende på at understøtte andre sprog, alfasprogene, som vil blive introduceret til brugerne, når oversættelseskvaliteten lever op til Googles standard. Google Oversæt kan oversætte ord, sætninger og tekster, som brugerne selv indsætter, samt websites mellem enhver kombination af de sprog, som Google Oversæt understøtter. Enhver der arbejder med sprog, ved at en oversættelse ofte afhænger af sammenhængen, for eksempel bliver Turkey altid oversat til Kalkun af Google Oversæt, men ofte burde den nok i stedet oversættes til Tyrkiet. Derfor har man siden januar 2011 kunne få alternative oversættelser, hvis man klikker på et ord, som Google Oversæt har oversat. Google Oversæt er inkorporeret i alle relevante Google-funktioner, for eksempel hvis man har en Gmail-konto, kan man få oversat sine mails, chat-samtaler med andre Gmail-brugere, samt hele dokumenter, som man har uploadet til sin konto. Derudover kan man indstille sin internet-browser til automatisk at oversætte hjemmesider, der er på et andet sprog end ens modersmål. Tidligere var det muligt for brugerne at foreslå en bedre oversættelse, hvis de mente, at Google Oversæts oversættelsesforslag var forkert. I skrivende stund er denne funktion slået fra, men ifølge diskussionsforummet (2011) for Google Oversæt arbejder Google på at indføre funktionen igen. Som nævnt er Google Oversæt et statistisk MT-system, og den har et korpus på flere millioner dokumenter, som er oversat af humane oversættere. Dokumenterne kommer fra bøger, organisationer så som FN og internationale websites (Video fra Google Oversæt 2011; Inside Google Translate). Når Google Oversæt skal generere en oversættelse, søger den efter mønstre i alle dokumenterne med den rette sprogkombination, og derved kan den komme med et intelligent gæt på en oversættelse. Der findes ikke lige mange oversatte dokumenter mellem de forskellige sprogkombinationer, og derfor varierer oversættelseskvaliteten også mellem de sprog, som Google Oversæt understøtter. Google tilføjer hele tiden nye dokumenter til deres MT-system, for at forbedre deres oversættelser. Side 13 af 69

Hvis man oversætter fra Google Oversæts hjemmeside, http://translate.google.dk/, kan man nu også høre, hvordan man udtaler de ord, som man oversætter, både på det valgte kildesprog og det valgte målsprog. Det faktum at Google Oversæt er en gratis online oversættelsestjeneste betyder, at systemet har en meget bred brugergruppe. Alle der har adgang til internettet har adgang til Google Oversæt. Som nævnt i indledningen, så har lægfolk ofte svært ved at forstå, hvorfor MT-systemer ikke kan genere en perfekt oversættelse. Derfor har Google Oversæt et dårligt ry og bliver tit opfattet som lidt af en joke. Det betyder dog ikke, at brugerne ikke benytter systemet, da de har forstået, at selvom oversættelserne ikke er perfekte, kan man stadig få et overblik over en tekst, som man ellers ikke ville have kunnet læse. Derudover bruger mange også systemet til enten at oversætte e-mails eller til at skrive e-mails på et fremmedsprog i forbindelse med deres arbejde. 3. Efter-redigering Revising is that function of professional translators in which they identify features of the draft translation that fall short of what is acceptable and make appropriate corrections and improvements (Mossop 2007; 109). Mossop har baseret sin teori på revision, men jeg vil undersøge, om den kan overføres til efterredigering. I dette kapitel vil jeg derfor starte med kort at beskrive forskellen mellem revision og efter-redigering. Derefter vil jeg gennemgå TAUS retningslinjer for efter-redigering, som er en række retningslinjer udarbejdet af folk inden for oversætterbranchen, der har arbejdet med og/eller forsket i efter-redigering af maskinoversatte tekster. Til sidst vil jeg i dette kapitel gennemgå Brian Mossops teori om revision. 3.1 Revision vs. efter-redigering Revision er, når man retter en oversættelse, der er oversat af en human oversætter, mens efterredigering er, når man retter en maskinoversat tekst. En revision vil ofte indebære, at man retter alle fejl, mens efter-redigering ofte handler om, at man kommer frem til en acceptabel tekst med mindst muligt arbejde. Det er fordi, den endelige funktion af målteksterne ofte vil være forskellig, og der er højere forventninger til en human oversat tekst, da det er almindeligt kendt, at MT-systemer ikke kan producere perfekte tekster. Derudover støder man på forskellige fejltyper, alt efter om man reviderer en human oversættelse, eller om man efter-redigerer en maskinoversat tekst. (O Brien 2011; dias 12, se bilag 5). Side 14 af 69

3.2 TAUS Som nævnt i indledningen, så har der eksisteret MT-systemer i mere end 50 år, men det er først i det sidste årti, at oversætterbranchen rigtigt er begyndt at benytte systemerne. I forbindelse med at maskinoversættelse er blevet mere udbredt, blev der i 2004 oprettet et forum og fællesskab, Translation Automation User Society (forkortet TAUS), hvor personer inden for oversætter branchen kan udveksle ideer og erfaringer. Taus er fortaler for MT, og promoverer brugen af maskinoversættelse. Fællesskabet består både af dem som udbyder de teknologier, inklusiv MTsystemer, som oversættere og andre sprogfolk bruger i deres hverdag, samt brugerne af de forskellige teknologier. Udover en hjemmeside, hvor man blandt andet kan finde diverse publikationer, afholder Taus også konferencer og kurser. (TAUS 2011). TAUS mission er: * + to increase the size and significance of the translation industry to help the world communicate better. (TAUS 2011; Mission) Da brugen af MT-systemer inden for oversætterbranchen stadig er forholdsvis ny, er disciplinen efter-redigering også ny, og de professionelle oversættere skal til at ændre deres tankegang. Når man udfører en revision af en human oversættelse, skal man normalt finde og rette alle fejl, det er ikke altid nødvendigt, når man efter-redigerer. Derfor har TAUS, i samarbejde med CNGL (Centre for Next Generation Localisation), udarbejdet nogle retningslinjer for efter-redigering, som kan hjælpe virksomheder med at udarbejde deres egne retningslinjer. Ligesom med en human oversættelse, så er efter-redigeringsprocessen påvirket af oversættelsens skopos, og derfor er det ikke praktisk at lave retningslinjer, der dækker alle situationer. TAUS retningslinjer skal derfor kun opfattes som vejledende. (TAUS Retningslinjer 2011; Objectives and Scope) Jeg har valgt at inkludere TAUS i dette speciale, fordi det er et forum af og for oversætterbranchen, og medlemslisten har adskillige velkendte navne: Google, Hewlett-Packard, IBM, Microsoft m.fl. Desuden fandt jeg det mere relevant at benytte retningslinjer, der er baseret på efter-redigering, fremfor Mossops retningslinjer, der er baseret på revision, da TAUS retningslinjer (eller nogle som ligner dem) bliver brugt, når man skal lære at efter-redigerer i den virkelige verden. Hvis Mossops revisionsteori kan overføres til efter-redigering, skal den bruges som et supplement til disse retningslinjer. Side 15 af 69

3.2.1 Retningslinjerne Retningslinjerne er baseret på efter-redigeringer, der bliver udført at professionelle oversættere. For at reducere behovet for efter-redigering, giver TAUS nogle anbefalinger, som kan hjælpe virksomhederne med at få et bedre slutresultat, for eksempel: Sørg for at kildeteksten er velskrevet (ingen stavefejl og korrekt tegnsætning). Sørg for at uddanne de personer, der skal udføre efter-redigeringen. Sørg for at definere, hvad der er acceptabel kvalitet, baseret på slutbrugerne. Sørg for at dem, som efter-redigerer kommer med feedback på typiske MT-fejl, så systemet kan blive forbedret. (Oversat fra TAUS Retningslinjer 2011; Recommendations) Omfanget af en efter-redigering bliver bestemt af to kriterier: 1. Kvaliteten af maskinoversættelsen. 2. Forventningen til måltekstens endelige kvalitet. TAUS retningslinjer er inddelt i to kvalitetsniveauer af efter-redigering: Good enough og Publishable. Good enough Når en måltekst er Good enough, så er den forståelig og meningsmæssig korrekt, det vil sige at målteksten viderebringer den samme besked som kildeteksten, men den vil ofte benytte en usædvanlig syntaks, og grammatikken vil ikke være perfekt. Det vigtigste er, at teksten er læselig, selvom den indeholder eventuelle fejl. Formålet med dette kvalitetsniveau er at give læserne et overblik over en tekst, som de normalt ikke ville kunne læse på grund af, at den er skrevet på et fremmedsprog. Tekster med dette kvalitetsniveau fungerer ofte kun som en informationskilde og vil ikke blive brugt til at træffe beslutninger ud fra. Retningslinjer for Good enough : Stræb efter en semantisk korrekt oversættelse. Sikre at ingen oplysninger utilsigtet er blevet tilføjet eller udeladt. Rediger alt stødende, upassende eller kulturelt uacceptabelt indhold. Anvend så meget af det originale MT-output som muligt. Grundlæggende regler for stavning er gældende. Side 16 af 69

Ingen grund til at gennemføre stilistiske korrektioner. Ingen grund til at omstrukturere sætninger for at forbedre det naturlige flow i teksten. (Oversat fra TAUS Retningslinjer 2011: Guidelines for achieving good enough quality) Publishable Når målteksten er Publishable, så er teksten forståelig, korrekt og stilen minder meget om den, man finder i en tekst, der er oversat af en kvalificeret human oversætter. Målteksten har en normal syntaks, og grammatik og tegnsætning er korrekt. Formålet med dette kvalitetsniveau er at skabe en måltekst, der minder om en human oversættelse. Retningslinjer for Publishable : Stræb efter en grammatisk, syntaktisk og semantisk korrekt oversættelse. Sørg for, at de vigtigste termer er korrekt oversat, og at de termer, som MT-systemet ikke har oversat er på kundens do not translate liste, hvis kunden har udformet sådan en liste. Sikre at ingen oplysninger utilsigtet er blevet tilføjet eller udeladt. Rediger alt stødende, upassende eller kulturelt uacceptabelt indhold. Anvend så meget af det originale MT-output som muligt. Grundlæggende regler for stavning, tegnsætning og orddeling er gældende. Sørg for, at formateringen er korrekt. (Oversat fra TAUS Retningslinjer 2011; Guidelines for achieving quality similar or equal to a human translation) Nogle af retningslinjerne går igen på begge niveauer, og det er også muligt at kombinere de to niveauer. Kvalitetsniveauet af målteksten afhænger af kvaliteten af det originale MT-output, skopos og slutbrugerne. Nogle gange kan en maskinoversættelse bruges som den er, og har ikke behov for at blive efter-redigeret, mens der i andre tilfælde er behov for, at målteksten kommer på niveau med en tekst, der er oversat af en human oversætter. Da et af underspørgsmålene i dette speciale handler om, hvorvidt de fejl som Google Oversæt laver kan klassificeres efter Mossops revisionsparametre, vil jeg benytte retningslinjerne for Publishable. Disse retningslinjer vil forhåbentlig hjælpe mig med at identificere alle fejlene. Side 17 af 69

3.3 Brian Mossops teori Brian Mossop kommer fra Canada, og har arbejdet som professionel oversætter siden 1974, hvor han blev ansat hos den canadiske regerings oversættelsesbureau. Siden 1976 fungerede han også som revisor og intern underviser. Sideløbende med sit arbejde som oversætter har Mossop undervist på deltid på York University School of Translation. Mossop har undervist siden 1979, og han har blandt andet undervist i oversættelses- og revisionsteori. Derudover har han udgivet adskillelige publikationer om de samme emner. (Mossop 2011) Mossops mere end 30-årige karriere som både professionel oversætter, revisor og underviser betyder, at han har en masse praktisk og teoretisk viden, og erfaring, som gør ham til en troværdig og kvalificeret kilde. Derfor har jeg valgt at bruge Brian Mossops bog Revising and Editing for Translators, 2nd edition fra 2007 som det teoretiske grundlag for dette speciale. I den nævnte bog deler Mossop sin teori i to: 1. Editing (redigering) - hvilket er, når man retter en tekst, der er skrevet af en anden person, men som ikke er en oversættelse. 2. Revising (revision) - hvilket er, når man retter en oversættelse enten sin egen eller en andens. Som nævnt i afsnit 3.1, bruges termen revision ofte i forbindelse med humane oversættelser, mens efter-redigering bruges i forbindelse med maskinoversættelse. Da dette speciale omhandler efter-redigering af maskinoversættelser, vil jeg kun beskrive Mossops revisionsprincipper. Det er vigtigt at bemærke, at Mossop kun arbejder med principper og ikke regler, da der ofte er tilfælde, hvor det er op til den enkelte revisor/efter-redigerer, om teksten skal rettes (Mossop 2007: 5). Når man reviderer en tekst, er den gyldne regel if in doubt, don t, da man ellers risikerer at forværre teksten. Mossops teori er baseret på revision af humane oversættelser, og han nævner kun kort efterredigering af maskinoversættelser. Humane oversættere og et MT-system laver ikke de samme type fejl. For eksempel vil et MT-system ofte være konsekvent i dens oversættelse af en term, mens en human oversætter nogle gange oversætter den samme term forskelligt nogle gange bevidst, men ofte også ubevidst. Derfor er det ikke sikkert, at alle de nedenstående parametre er relevante, det vil jeg først finde ud af, når jeg går i gang med min analyse. Side 18 af 69

3.3.1 Revisions parametre Hvis man skulle lave en udtømmende liste over de ting, som kan gå galt under en oversættelse, vil den blive meget lang uanset om oversættelsen er lavet af et menneske eller en maskine. Mossop (2007) har derfor udformet en kort liste med tolv parametre fordelt på fire grupper. Mossop har udformet parametrene som spørgsmål, som alle er efterfulgt af et enkelt ord i parentes, som man for nemhedens skyld kan bruge som reference. Jeg har bibeholdt denne struktur i min gennemgang af Mossops revisionsparametre. Den nedenstående liste skal ikke opfattes som en checkliste, som man skal følge slavisk, når man reviderer i et professionelt miljø. Derimod kan listen bruges som inspiration, og den kan hjælpe, når man skal vurdere omfanget af en revision/efter-redigering. Desuden vil det heller ikke være praktisk, hvis man skulle gennemgå hver sætning tolv gange (en gang for hver parameter). Gruppe A: Problemer med betydningsoverførsel (Overførsel) Parameter 1: Afspejler oversættelsen kildetekstens budskab? (Nøjagtighed) Accuracy is the most important feature of a translation. * + The main task of the reviser is to ensure that there are no major mistranslations passages which could seriously mislead the reader about an important feature of the source text s message. (Mossop 2007; 126). Det er vigtigt, at en oversættelse ikke indeholder betydelige fejloversættelser, men Nøjagtighed er ikke kun begrænset til ord-, frase- og sætningsniveauet. Det vigtigste er, at budskabets overordnede struktur er blevet oversat korrekt. En nøjagtig oversættelse behøver dog ikke være en tæt oversættelse, eller sagt med andre ord, oversætteren behøver ikke at have benyttet en kildetekstorienteret strategi. En oversættelse skal ikke være så nøjagtig som muligt, men så nøjagtig som det er nødvendigt. For eksempel behøver en tekst, der bare læses igennem for derefter at blive smidt ud, og som ikke vil blive brugt til at træffe beslutninger ud fra, ikke at være lige så nøjagtig som en tekst, der skal udgives, eller som der skal træffes beslutninger ud fra. Selvom Nøjagtighed er en meget vigtig parameter, betyder det ikke, at hver enkelt nuance skal overføres til målteksten, da for meget opmærksomhed på nøjagtighed kan gøre en sætning ulæselig. Der findes ingen facitliste over, hvor nøjagtig en tekst skal være, og i nogle tilfælde vil det være op til revisoren at vurdere, om en tekst skal være meget nøjagtig eller letlæselig det kommer an på brugerne, og hvad de skal bruge teksten til. For eksempel hvis det er en teknisk eller medicinsk tekst, hvor brugerne ikke er eksperter inden for det relevante fag, kan det være nødvendigt at gøre oversættelsen lidt mindre nøjagtig, for at gøre den letlæselig for brugerne. Side 19 af 69

Hvorvidt en tekst er nøjagtig, kommer an på to ting: 1. Er kildeteksten blevet forstået korrekt? 2. Udtrykker oversættelsen denne forståelse? Oftest opstår unøjagtighed, når kildeteksten ikke er blevet forstået korrekt, den kan dog også opstå selvom oversætteren har forstået kildeteksten, for som nævnt kan det nogle gange være nødvendigt at gøre oversættelsen unøjagtig, for at læserne vil kunne forstå teksten. Det er op til revisoren at bedømme, om unøjagtigheden er bevidst, eller om den er opstået på grund af, at oversætteren har misforstået kildeteksten. Denne type fejl kan dog kun opdages, hvis der udføres en komparativ analyse, hvor revisoren sammenligner kildeteksten med oversættelsen. Når der forekommer tal i en tekst, er de ofte en vigtig del af tekstens budskab, så for at oversættelsen bliver nøjagtig, er det vigtigt, at tallene bliver overført korrekt. Hvis en tekst indeholder mange tal, er det en god ide at lave et separat check af oversættelsen for at sikre, at alle tallene er blevet overført korrekt, for eksempel er der stor forskel på 6,8% og 8,6%, når man snakker om arbejdsløshed. Parameter 2: Er der blevet udeladt nogen elementer? (Fuldstændighed) Medmindre andet er angivet, skal en oversætter altid oversætte hele kildetekstens budskab No Additions, No Subtractions (NANS) (Mossop 2007; 128). NANS-princippet skal ikke tages for bogstaveligt, da små tilføjelser og udeladelser ikke kan undgås, og man skal kun anvende princippet i forbindelse med relevant information. Det er ikke alt information i en tekst, der er lige relevant for læseren, og derfor kan der være tilfælde, hvor det er i orden enten at udelade en sætning, eller at et afsnit bliver resumeret, i stedet for at blive gengivet i sin helhed, så længe oversætteren ikke udelader vigtig information. Ofte bliver elementer udeladt ved et uheld, for eksempel et punkt i en lang liste af punkter eller måske et helt afsnit. En af revisorens opgaver er at sikre sig, at der ikke er blevet udeladt noget ved et uheld. En oversætter skal dog også passe på med ikke at tilføje for meget, men det er vigtigt at bemærke, at for at gøre en tekst fuldstændig er det ofte nødvendigt at tilføje kulturelle eller tekniske forklaringer. For eksempel hvis man oversætter en artikel fra et fremmedsprog til dansk, som omhandler politik, der nævner navnene på politiske partier (som ofte ikke har en dansk oversættelse), er det en god ide at fortælle læserne, om de relevante partier er højre- eller venstreorienteret, da dette vil give læserne en ide, om hvilken type politik som partiet fører. Et andet eksempel er, hvis man oversætter Side 20 af 69

en tekst om Jomfruøerne, vil det være relevant at forklare at det er det tidligere Dansk Vestindien, da denne reference er mere velkendt blandt danskerne. Det er derfor vigtigt, at en revisor holder øje med, om der er afsnit, hvor læserne har behov for hjælp for at forstå teksten. At en tekst er fuldstændig, betyder ikke, at oversætteren har overført eventuelle gentagelser, som man ofte vil finde i dårligt skrevne kildetekster. Det betyder heller ikke, at elementer, som er eksplicitte i kildeteksten, også skal være det i målteksten. Så længe læseren kan forstå elementerne ved at trække enten på generel viden, eller fra viden, der er blevet gjort kendt tidligere i teksten (ikke senere), kan eksplicitte elementer sagtens gøres implicitte i målteksten. Hvis revisoren er i tvivl om, læseren vil forstå det implicitte element, skal det selvfølgelig gøres eksplicit. (Mossop 2007; 126-130). Gruppe B: Problemer med indhold (Indhold) Parameter 3: Giver rækkefølgen af ideer mening? Indeholder teksten vrøvl eller modsigelser? (Logik) Mens en oversættelse meget vel kan indeholde ideer, som oversætteren personligt finder fjollede eller skandaløse, må teksten ikke indeholde vrøvl, modsigelser mellem sætninger, umulige tids- og årsagsrækkefølge, samt andre ulogiske fejl. Hver enkelt del af oversættelsen skal give mening i den kontekst, som den forekommer. Manglende logik kan forekomme i to former: 1. Kildeteksten er ulogisk og oversætteren har ikke gjort noget ved det. 2. Kildeteksten giver mening, men oversætteren har introduceret vrøvl. Som udgangspunkt må man gå ud fra, at forfatteren ønsker at skrive noget, der giver mening, men det lykkedes ikke altid på grund af dårlige formuleringer. Nogle gange kan man se ud fra konteksten, hvad forfatteren havde til hensigt at sige, og hvis oversætteren ikke har gjort noget ved de dårlige formuleringer i oversættelsen, kan de forsage misforståelser og forvirring hos læserne. Her er det revisorens opgave at forsøge at få mening ud af vrøvl. Nogen gange introducerer oversætteren også vrøvl. Blandt studerende er det ofte på grund af manglende viden om kildesproget, mens vrøvl ofte opstår på grund af træthed eller travlhed blandt professionelle oversættere (Mossop 2007; 131). Side 21 af 69

Parameter 4: Er der faktuelle, konceptuelle eller matematiske fejl? (Fakta) At tjekke for faktuelle, konceptuelle og matematiske fejl er ikke en af oversætterens eller revisorens hovedopgaver, men kunden vil ofte foretrække, at sådanne fejl ikke bare bliver ignoreret. Fejlene forekommer oftest i kildeteksten, men det kan også ske, at det er oversætteren, der introducerer en fejl. Der vil være forskellige fremgangsmåder til at håndtere eventuelle fejl afhængigt af kunden. Nogle kunder ønsker, at oversætteren selv retter fejlene, mens andre gerne vil have en liste over fejlene, og andre igen foretrækker, at oversætteren selv kontakter kildetekstforfatteren. Det skal bemærkes, at da revisorer ofte kommer fra en lingvistisk baggrund, vil de ikke altid have den nødvendige viden til at rette eller overhovedet at bemærke denne type fejl. (Mossop 2007; 130-133). Gruppe C: Problemer med sprog og stil (Sprog) Parameter 5: Flyder teksten? Er forbindelserne mellem sætningerne tydelige? Er forholdet mellem delene af hver sætning tydelig? Er der nogen vanskelige sætninger, som er svære at læse? (Kohærens og kohæsion) Denne parameter har Mossop valgt at kalde Smoothness, hvilken er en reference til, at teksten skal være smooth, det vil sige, at en tekst skal flyde. Baseret på Mossops (2007;133) forklaring har jeg valgt at kalde parameteren Kohærens og kohæsion, men da der tit opstår forvirring omkring disse to begreber, vil jeg starte med at definere dem: Kohærens betyder at hænge sammen, det vil sige, at der skal være sammenhæng i en tekst. En tekst er kohærent når de forskellige betydningselementer hører til samme betydningsområde. Kohærens etableres både på sætnings- og på tekstniveau. På sætningsniveau skal der være sammenhæng mellem de enkelte ords betydning. For eksempel er sætningen Maria spiser et æble kohærent, fordi et æble er noget, man spiser, mens sætningen Maria læser et æble ikke er kohærent, fordi termerne læse og æble ikke tilhører det samme betydningsområde. På tekstniveau handler kohærens om, at hele teksten handler om det samme emne. (Kohærens 2011) Kohæsion er de sproglige fænomener, som manifesterer tekstens kohærens, typisk ved gentagelse eller henvisning til tidligere elementer (Kohæsion 2011). I teksten Maria læser avisen. Det gør hun hver dag skabes der kohæsion både ved gentagelsen af nutids verberne læser og gør, samt ved henvisningen af pronominet hun til Maria. Nu hvor jeg har defineret kohærens og kohæsion, vil jeg fortsætte med at beskrive Mossops teori. Side 22 af 69