Vigdis Jensen CLM-speciale 2011

Transkript

1 Undersøgelse af et sammenligneligt, bilingvalt ad hockorpus som fagsprogligt og fagspecifikt hjælpemiddel ved oversættelser inden for et nyt fagområde: Design og indsamling af et repræsentativt specialkorpus bestående af danske og spanske tekster om søgemaskineoptimering Udtrækning af relevante leksikografiske data efterfulgt af lagring i et adækvat format Opgaveskriver: Vigdis Thurid Andreasardóttir Jensen Cand.ling.merc. spansk med profilen tolk og translatør Vejleder: Anne Lise Laursen Handelshøjskolen, Aarhus Universitet, Institut for Sprog og Erhvervskommunikation August 2011 Antal tegn: /100

2 Indholdsfortegnelse 1 Resumen Indledning Korpusteori Repræsentativitet Naturligt forekommende sprog Korpustyper Færdiglavede korpora og ad hoc-korpora Referencekorpora Specialiserede korpora Monolingvale og multilingvale korpora Parallelle korpora Sammenlignelige korpora Åbne og lukkede korpora Homogene og heterogene korpora Sådan designes et sammenligneligt, bilingvalt specialkorpus Design Indsamling Forberedelse Korpusanvendelse Korpusanalyseværktøj Casens korpusplatform Design af SEO-korpus Indsamling af tekster til SEO-korpus Korpusspecifikationer Korpusanalyseværktøjet AntConc ReCor: Bagvedliggende processer Trin Trin ReCor: Brug i praksis ReCor: Spansk delkorpus ReCor: Dansk delkorpus Funktionsteori /100

3 10.1 Potentielle brugere Brugersituationer Brugerbehov Lagring af leksikografiske data Makrostruktur Mikrostruktur Keywordliste Udtrækning af leksikografiske data Strategier til udtrækning af ækvivalenter Udtrækning af leksikografiske data til caseproduktet web spanske data web danske data buscadores spanske data buscadores danske data SEO spanske data SEO danske data posicionamiento spanske data posicionamiento danske data búsqueda enlace palabra clave resultado contenido SEM Konklusion Bibliografi Cd-rom med bilag: Bilag 1: De tre ficheros de salida generet af ReCor-programmet for det reviderede spanske delkorpus. Bilag 2: De tre ficheros de salida generet af ReCor-programmet for det danske delkorpus. Bilag 3: Det reviderede spanske delkorpus Bilag 4: Det danske delkorpus Bilag 5: Det spanske referencekorpus Bilag 6: Det danske referencekorpus 3/100

4 1 Resumen A partir de un corpus especializado comparable bilingüe compuesto por textos del ámbito técnológico SEO (Search Engine Optimization), se describen los procesos de extracción de palabras clave, sus equivalentes y otros datos lexicográficos relevantes para los usuarios del caso del presente tesis. El SEO es en los últimos años uno de los servicios más demandados por aquellas empresas online que desean posicionarse en los buscadores de tal forma que les permita conseguir el mayor número posible de clientes 1. Los resultados del caso van a apoyar la idea de que un corpus comparable compilado via el Web puede llegar a ser una fuente de conocimiento lexicográfico y técnico importante. En este tesis se describen los análisis en corpus realizados sobre un corpus comparable castellanodanés. Se ha puesto a prueba la utilidad de este tipo de corpus y el programa de análisis de corpus Ant- Conc para traducir textos de un nuevo ámbito técnológico y se describen los pasos que se han llevado a cabo para comprobar las posibilidades que el corpus le proporciona al traductor especializado a la hora de extraer terminología y conocimiento especializado. Los resultados de las mencionadas extracciones contribuirán a la creación de un producto de almacenamiento que servirá de medio de traducción. Durante la creación de dicho producto será establecida una metodología de trabajo específica. Los tipos de corpus que se pueden crear son tan variados como los propósitos para los cuales se compilan. Para el caso del tesis son necesarios ante todo datos auténticos, relevantes y fiables, factores que caracterizan a los corpus comparables que están constituidos por un conjunto de textos originales que comparten ciertas funciones y características y que pertenecen al mismo ámbito de especialidad como el texto sometido a traducción. Todos los corpus deben compartir el rasgo de representatividad, rasgo cuyos criterios dependen del próposito de los análisis de corpus. En el presente tesis la noción de representatividad requiere un fundamento de datos exhaustivo, bien variado, relevante y fiable que permite la extracción de terminología y conocimiento especializado. La calculación de la representatividad se realiza a través del algoritmo N-Cor, o sea, el software llamado ReCor tegn 1 4/100

5 2 Indledning I denne afhandling sættes der fokus på fagsproglig og fagspecifik viden indeholdt i nøje udvalgte, autentiske tekster fra webbet og på, hvorledes korpusanalyser af disse tekster kan hjælpe en uddannet oversætter i sit oversættelsesarbejde inden for et for vedkommende nyt fagområde, der ikke er behandlet i nogen tilgængelige bilingvale opslagsværker. Uanset hvor ny og omfangsrig en fagordbog og deslige måtte være, vil der altid være fagspecifik terminologi og viden, som ikke er behandlet deri. Grunden til dette kan være, at dataene er for nye eller måske for fagspecifikke. Oversætterne af fagsprog, herefter kaldet LSP (Language for Special Purposes)-oversættere, støder meget tit ind i det problem, at tilgængelige ordbøger, databaser m.m. ikke indeholder de data, de søger, eller at dataene er utilstrækkelige, hvorfor deres datasøgning fortsætter på www. Den klare ulempe ved webbet er imidlertid, at det af nogle korpuslingvister betragtes som et kæmpe, dynamisk, åbent og lettilgængeligt korpus under konstant udvikling, men the World Wide Web is not a corpus, because its dimensions are unknown and constantly changing, and because it has not been designed from a linguistic perspective. (...) Nevertheless, the WWW is a remarkable new resource for any worker in language (Seghiri Domínguez 2006:227). Så ulempen kommer til udtryk ved det dynamiske og varierede datagrundlag, som uvægerligt gør det svært at identificere og påvise kildernes troværdighed, fordi brugeren ikke i samme grad som ved selvkompilerede korpora har udvalgt kriterierne for de kilder, som korpusset, der søges i, skal bestå af. For ikke at lide informationsdøden, som Tarp og Bergenholtz så malerisk beskriver fænomenet, hvor brugeren konfronteres med alt for mange søgeresultater, er det nødvendigt at udvælge og forberede afgrænsede, behovstilpassede kildedata, der kan danne grundlag for sproglige undersøgelser (Tarp 2009:27). Problemstillingen er, som berørt, den, at LSP-oversættere ofte får til opgave at oversætte tekster inden for et for dem ukendt fagområde. Frem for at lære terminologi inden for en masse fagområder, undervises oversætterne i løbet af deres uddannelse nemlig i universelt anvendelige tilgange til reception, produktion og oversættelse af tekster inden for faglige hovedområder, såsom teknisk, juridisk og økonomisk sprog, inklusiv datasøgning på webbet inden for samme. Oversætterne vil som konsekvens heraf i de fleste tilfælde mangle dybdegående viden om emnerne i deres LSP-oversættelser, samtidig med at meget af terminologien må forventes at være ukendt. Der kan selvfølgelig være hjælp at hente i fagordbøger, både de bredt dækkende og de mere specialiserede, men det er også en kendt sag, at alle fagområder naturligvis ikke er behandlet i ordbøger eller lignende opslagsvær- 5/100

6 ker. Skulle tilfældet være, at et specifikt fagområde faktisk er behandlet i en form for opslagsværk, vil dataene adresseret til lemmataene ofte ikke være tilstrækkelige til, at LSP-oversættere forsvarligt - og uden at konsultere andre opslagsværker - vil kunne anvende termerne. Hermed menes f.eks. manglende kollokationsangivelser, faglige forklaringer og manglende systematik og sammenhæng mellem de angivne begreber, eller også kan ordbogen simpelthen være forældet (Weilgaard Christensen 1995:7). Det er tvingende nødvendigt for oversætteren at sidde inde med både viden og terminologi på begge sprog inden for det pågældende fagområde for at kunne udarbejde en forsvarlig oversættelse. En ting er dog at have materiale om emnet på begge sprog, en anden er at vide, hvordan dette materiale kan bruges i en decideret oversættelsessammenhæng til f.eks. at finde ækvivalenter på målsproget, hvilket bringer ækvivalensproblematikken på banen. Når ordbøgerne ikke slår til, skal oversætterne kunne træde ind i rollen som leksikografer/terminografer, der i forbindelse med koncipering af ordbøger, arbejder ud fra princippet om sammenligning. Med sammenligning menes i den forbindelse ikke i hvor høj grad termernes ortografi ligner hinanden, hvilket ville udgøre et meget usikkert sammenligningsgrundlag til brug ved udtrækning af ækvivalenter; det er tværtimod først, når termernes definition eller faglige forklaring har vist sig at indeholde de samme karakteristiske træk, altså samme begrebsindhold, at der kan der være tale om ækvivalens (Weilgaard Christensen 1995:37). Korrekt terminologi er tvingende nødvendig for at kunne kommunikere entydigt og effektivt inden for dynamiske og konstant innoverende brancher som f.eks. it-branchen, så for at kunne udarbejde idiomatisk og terminologisk korrekte oversættelser har oversætterne behov for et autentisk, opdateret, overskueligt, empirisk og interlingvalt datagrundlag. Dette indsamlede sproglige datamateriale skal siden lagres på en sådan måde, at oversætterne hurtigt kan finde og genbruge det. Når så de har foretaget diverse sproglige undersøgelser via kildematerialet og herved fundet frem til en række relevante data, der kan tilskrives fagspecifikke begreber, skal disse data lagres i en form for overskuelig, brugervenlig og genanvendelig terminologisk enhed (Weilgaard Christensen 1995:39). Specialets forslag til en bæredygtig og effektiv løsning på de beskrevne problematikker kommer til udtryk i den følgende problemformulering: 6/100

7 I dette speciale efterprøves hypotesen om, at brugen af et selvkompileret, sammenligneligt, bilingvalt specialkorpus som oversættelsesredskab kan supplere og optimere LSP-oversætterens sproglige og saglige forudsætninger i sit oversættelsesarbejde inden for et ukendt fagområde. Specialet undersøger primært processerne bag designet af et repræsentativt specialkorpus samt udtrækningen af hyppigt brugte termer inden for fagområdet og tilhørende leksikografiske data. Sekundært sættes der fokus på selektion og strukturering af de leksikografiske data. 1. Ud fra en deduktiv tilgang vil der, hovedsageligt med udspring i Lynne Bowker og Jennifer Pearsons teori om design, indsamling og forberedelse af korpora, blive sat fokus på de forskellige typer af korpusdesign, så modtageren af specialet, den uddannede danske oversætter, bliver i stand til at kompilere netop den type korpus, der er adækvat til dennes formål. I forlængelse heraf behandles det yderst relevante spørgsmål om korpusrepræsentativitet via N-Cor-algoritmen udviklet af professorerne Míriam Seghiri Domínguez og kollegaen Gloria Corpas Pastor fra Departamento de Traducción e Interpretación, Facultad de Filosofía y Letras, Universidad de Málaga. N- Cor-algoritmens funktionalitet kommer til udtryk gennem softwareprogrammet ReCor, der bruges til at udregne repræsentativiteten for de to specialiserede delkorpora på dansk og spansk, der sammensættes til brug i afhandlingens case. 2. Hernæst udtrækkes og udvælges nøgletermer samt leksikografiske data, der skal adresseres til termerne, og som skal kunne dække LSP-oversætterens behov fyldestgørende. De leksikografiske data er navnlig udvalgt i henhold til leksikograf Sven Tarps doktorafhandling om funktionsteori Leksikografien i grænselandet mellem viden og ikke-viden, som sætter brugerne og disses behov i forskellige situationer i fokus for at fastlægge, hvordan en ordbog skal opbygges for at kunne tilfredsstille behovene. 3. Som Wilbur Schramm skriver (i Yin 2003:12), så er essensen i et casestudie "that it tries to illuminate a decision or set of decisions: why they were taken, how they were taken, how they were implemented, and with what result. I afhandlingens case behandles undertegnedes bud på et korpusdesign, der egner sig til at besvare de spørgsmål, brugerne har til den undersøgte sprogbrug, dvs. et design der kan danne et pålideligt grundlag for udtrækning af nøgletermer inden for fagområdet SEO (søgema- 7/100

8 skineoptimering) samt tilskrivning af relevante leksikografiske data til disse via korpora og konventionelle oversættelsesredskaber, samtidig med at korpusanalyseværktøjet AntConcs tilstrækkelighed i forbindelse med disse sproglige korpusundersøgelser afprøves. Casen omfatter også de konkrete, induktive arbejdsgange og strategier brugt til udtrækning af fagsproglige og fagspecifikke data til fire af de ti SEO-nøgletermer, der inkluderes i caseproduktet. Til caseundersøgelserne bruges en kombineret kvantitativ og kvalitativ tilgang, idet der både udføres statistiske analyser samtidig med at korpusbrugerens logiske og kritiske sans inddrages. De sproglige data struktureres slutteligt på adækvat vis, hvilket vil sige, at der i afhandlingen primært er fokus på processerne, men altså også på produktet. Casen skal opfattes som en undersøgelsesmetode snarere end en bestemt strategi til dataanalyse eller teknik til dataindsamling, idet the case study as a research strategy comprises an all-emcompassing method covering the logic of design, data collection techniques, and specific approaches to data analysis (Yin 2003:13). Vigtigheden af casens fagområde er blevet kraftigt fremhævet i løbet af de seneste år, grundet det store boom i onlinebutikker, i hvilken forbindelse synlighed på webbet er alfa og omega. Selvom den transnationale kommunikation mellem danske og spanske virksomheder, der arbejder inden for SEOfeltet og it generelt, gør brug af mange termer fra engelsk, bliver virksomhederne sig samtidig stadig mere bevidst om, hvad sproglig identitet betyder i et multietnisk og multilingvalt Europa. Udarbejdelse af ordbøger og deslige inden for nye fagområder har stor nytteværdi og er med til at åbne op for rigdommen i de nationale sprog. De sproglige begrænsninger i disse ordbøger, som det stærkt dominerende engelske erhvervssprog konfronterer os med, skinner dog også igennem. For at kunne bibeholde sprogenes identitet er det af meget høj vigtighed at forstå at formidle et budskab fra et sprog til et andet uden at skulle tage omvejen via engelsk. OBS Læseren vil sandsynligvis bemærke stavefejl i nogle af korpusteksteksemplerne, i hvilken forbindelse der gøres opmærksom på, at der er tale om slåfejl/stavefejl fra virksomhedernes side, eftersom eksemplerne er kopieret direkte ind i specialet. 8/100

9 I afhandlingen bruges desuden Det Danske Sprog- og Litteraturselskab s danske betegnelser for de engelske udtryk type (ordtype) og token (tekstord) 2. Disse vil blive flittigt brugt i dele af afhandlingen og fortjener derfor en indledende forklaring: - Token: Når der tælles tokens i et korpus, tælles samtlige løbende tekstord. Et korpus på to millioner ord, indeholder to millioner tekstord. - Type: Når der tælles types i et korpus, tælles der hvor mange forskellige ord, dvs. ordtyper, der optræder deri. Et ord registreres altså kun en gang, uanset hvor mange gange det forekommer i korpusset. - Type/token-ratio: Dette tal angiver forholdet mellem antallet af forskellige ordtyper samt det samlede antal tekstord i korpusset. Hvis to korpora af samme længde sammenlignes, og korpus A har en lavere type/token-ratio end korpus B, kan det udledes, at korpus A indeholder flere gentagelser og som konsekvens heraf har et mindre varieret ordforråd (Olohan 2004:201). 3 Korpusteori Som et naturligt udgangspunkt vil den grundlæggende teori bag korpusbegrebet i dette afsnit blive forklaret i korte træk. Korpuslingvistikken som term går ikke længere tilbage end de tidlige 1980 ere, hvorimod selve metodikken gemt bag betegnelsen er blevet set brugt i lange tider. Allerede i det 13. århundrede begyndte de bibellærde nemlig at foretage detaljerede lingvistiske undersøgelser på både ordog sætningsniveau i større tekstmateriale. De nedskrev alle anvendte ord, satte dem i alfabetisk rækkefølge og henviste til de steder i Bibelen, hvor de var blevet fundet, sådan at andre interesserede ville kunne finde frem til, hvorledes et ord blev brugt, og i hvilken kontekst det måtte optræde (McCarthy/O Keeffe 2010:4). Korpuslingvistikken, som vi kender den i dag, beskæftiger sig med sproglige undersøgelser foretaget via korpora, hvilket betyder, at den åbner op for muligheden for en empirisk tilgang til beskrivelse af sprogbrug, idet der tages udgangspunkt i autentiske data, der kan underlægges korpusanalyser. Fortsættes der ud af samme tangent, kan det her fremhæves, at enkeltstående observationer i et korpus kan lede til hypoteser, der kan redegøre for disse observationer og forhåbentlig føre til en sproglig 2 9/100

10 generalisering baseret på beviser i form af gentagne mønstre i korpusset (Tognini-Bonelli 2001:2). Et ords mønstre kan defineres som: all the words and structures which are regularly associated with the word and which contribute to its meaning. A pattern can be identified if a combination of words occurs relatively frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it (Tognini-Bonelli 2001:90). Korpuslingvisterne har dog ikke udelukkende interesse i det, der eksplicit kan observeres i korpora. De interesserer sig i lige så høj grad for, hvad der kan forventes at forekomme, for korpuslingvistikken beskæftiger sig med sprogmønstre, der typisk og hyppigt forekommer ikke kun tilstedeværende data. Det er vigtigt at huske på, at korpora, trods deres omfang, ikke kan give udtømmende informationer, men at de derimod viser tydelige tendenser inden for en sprogbrug. I modsætning til semantik, pragmatik og syntaks bestræber korpuslingvistikken sig ikke på at beskrive en bestemt afskygning af sproget som sådan, men kan snarere betegnes som en analysemetodik, som kan bruges på adskillige lingvistiske discipliner (Olohan 2004:16). Fremtrædende forfattere inden for korpuslingvistikken, såsom Sinclair (1991:14ff), Aston (2001:46), Bowker og Pearson (Bowker/Pearson 2002:9) deler alle det synspunkt, at et korpus bør defineres som en repræsentativ samling af elektronisk tilgængelige tekster, der indeholder sprogbrug fra naturligt forekommende tekster bestående af løbende tekstord, og som kan gøres til genstand for lingvistiske undersøgelser vha. computersoftware. Et korpus beskrives ydermere som en ustruktureret datakilde sammenlignet med f.eks. databaser og opslagsværker, der betegnes som strukturerede kilder. Slutteligt kaldes eksempelvis HTML en semi-struktureret kilde (Westh/Bohr-Halling 2008:33). De fremtrædende korpuslingvister har desuden tilsluttet sig Sinclairs - manden bag det første korpusbaserede ordbogsprojekt COBUILD - beskrivelse af et korpus som værende en tekstsamling, der først bliver til et korpus, når den bliver behandlet som et. Sinclair fortsætter med at forklare, at et korpus skal overholde prædeterminerede designkriterier, der fastsættes ud fra brugernes behov samt forventede udbytte af korpusundersøgelserne. Han præciserer, at teksterne skal indsamles med en forventning om, at undersøgelser af disse vil være udbytterige og sprogligt oplysende (i O Keeffe/McCarthy 2010: 473). Ud fra denne sammenstykkede definition af et korpus skal der fremhæves to nøgleord til nærmere uddybelse for at gøre korpusbegrebet utvetydigt, nemlig repræsentativitet og naturligt forekommende sprog. 10/100

11 3.1 Repræsentativitet Hvorvidt et korpus er repræsentativt eller ej er yderst relativt og skal ses i forhold til formålet med korpusbrugerens lingvistiske undersøgelser. For leksikografer er repræsentativitet f.eks. et korpus, der kommer rundt om så stor en del af den repræsenterede sprogbrug som muligt, således at det er muligt at udtrække alle vedrørende og vigtige lemmata. Når et korpus er repræsentativt, giver det et så nøjagtigt billede som muligt af det område, der ønskes undersøgt. Hvis en enkelt forfatters sprog skal undersøges, f.eks. Shakespeares tekster, er det en forholdsvis smal sag at sammensætte et fuldstændigt korpus. Er det derimod sprogbrugen inden for et helt fagområde, der skal dokumenteres i et korpus, vil det kun kunne lade sig gøre at sammensætte et såkaldt repræsentativt korpus (Aston 2001:48). Sproget i specialkorpora skal optimalt set være repræsentativt forstået på den måde, at statistisk overbevisende resultater, der baserer sig på veludførte korpusundersøgelser, bør kunne klassificeres som sproglige generaliseringer inden for den undersøgte sproglige ramme. Ved det forstås, at et repræsentativt korpus kan bruges til at forudsige, hvad andre tekster indsamlet i henhold til samme kriterier ville have indeholdt af sproglige mønstre. Sandt at sige er repræsentativitetsbegrebet endnu meget diffust, og det på trods af at det er et stort set uundgåeligt emne i de fleste korpussammenhænge, idet det optræder som et kernekarakteristikum, der netop adskiller et korpus fra en regulær tekstsamling (Corpas Pastor/Seghiri Domínguez 2009:87). For at kunne ende ud med et repræsentativt specialiseret korpus inden for et fagområde skal det først præciseres nøjagtigt, hvad der ønskes undersøgt, hvorefter der nødvendigvis må fastsættes en række specifikke kriterier for korpusteksterne. Designeren kan f.eks. gøre sig overvejelser om tekst- og korpusstørrelse, emneområde, teksttype, forfattere, sprog samt publiceringsdato (Bowker/Pearson 2002:45). Disse foranstaltninger hænger sammen med, at der kan foretages mere pålidelige, relevante og præcise søgninger i korpusset, des mere afgrænset og veldefineret emneområdet er, for "the representativeness of the corpus determines the kinds of research questions that can be addressed and the generalizability of the results of the research" (Corpas Pastor/Seghiri Domínguez 2007a). Hvis fundamentet ikke er godt nok, bliver resultaterne af korpusanalyserne, jævnfør citatet, tilsvarende derefter. Det er nødvendigt at fokusere lidt mere på korpusstørrelsen som repræsentativitetskriterium og fremhæve, at korpusset selvsagt må være af et vist omfang for at undgå fænomenet data spareness ( datamangel) (Westh/Bohr-Halling:38). Hvis korpusset har en for lille datamængde, må det forventes, at der vil være mangel på termer og lingvistiske mønstre inden for det område, som underlægges 11/100

12 korpusanalyser, således at det ikke vil være muligt at be- eller afkræfte sproglige hypoteser, og derfor heller ikke muligt at udarbejde gangbare generaliseringer. Korpusstørrelsen bør som en lettere abstrakt hovedregel være proportional med omfanget af området, der skal repræsenteres. Sinclair argumenterer for, at et korpus bør be as large as possible, and should keep on growing (Sinclair 1991:18), fordi underlying regularities have a better chance of showing through the superficial variations (i O Keeffe/McCarthy 2010:66), selvom der jo teoretisk set af naturlige årsager vil nås et punkt, hvor korpusset mættes og antallet af ordtyper forbliver stort set det samme, selvom der tilføres flere tekstord/tekster. Sinclair er dog af den mening, at: small is not beautiful; it is simply a limitation (i O Keeffe/McCarthy 2010:66). Forfattere som eksempelvis Kennedy mener imidlertid, at et stort korpus ikke nødvendigvis er mere brugbart end et lille, specielt ikke hvis formålet med korpusanalyserne er at undersøge højfrekvente termer (i Olohan 2004:46). Et lille men grundigt designet korpus er til enhver tid bedre end et stort, men ikke i lige så høj grad grundigt designet, korpus. (Bowker/Pearson 2002:45). Der hersker dog trods alt bred enighed om, at der ikke findes en decideret ideel korpusstørrelse for hverken referencekorpora eller specialiserede korpora, som kan fastlægges allerede inden tekstindsamlingen, eftersom spørgsmålet om repræsentativitet selvsagt først og fremmest afhænger af korpusteksternes kvalitet og relevans samt formålet med korpusstudierne. Der anerkendes kun den ene norm, at et specialiseret korpus er mindre omfangsrigt end et referencekorpus, da de specialiserede jo netop blot repræsenterer et afgrænset aspekt af et sprog. Derimod findes der adskillige matematiske metoder - diverse algoritmer og software - til beregning af graden af repræsentativitet efter tekstindsamlingen har fundet sted. 3.2 Naturligt forekommende sprog Det naturligt forekommende sprog har reference til spørgsmålet om teksternes autenticitet og kræver - ligesom repræsentativiteten - også en uddybende forklaring for bedre at forstå hele korpusbegrebet. Bowker og Pearson giver et bud på, hvordan begrebet autentisk sprog skal forstås i korpussammenhæng: it is an example of real live language and consists of a genuine communication between people going about their normal business. In other words, the text is naturally occurring and has not been created for the express purpose of being included in a corpus in order to demonstrate a particular point of grammar, etc. (Bowker/Pearson 2002:9). Korpustekster der skal underlægges undersøgelser inden for sprogbrug skal nødvendigvis udgøres af autentisk sprog, selvom it would be mistaken to suppose that what is textually attested uniquely 12/100

13 represents real language, som Stubbs fremhæver, at Widdowson har udtalt. Stubbs påpeger dog i denne henseende, at korpuslingvisterne skam heller ikke ser alt autentisk, skriftligt sprog som en tilstrækkelig betingelse for også at kunne kalde det faktisk eksisterende og brugt sprog, men bestemt en nødvendig betingelse. Han fremhæver, at korpuslingvisterne tillægger statistiske korpusdata væsentlig betydning og derfor som oftest ekskluderer enkeltstående observationer uden statistisk værdi, da de som konsekvens heraf oftest ikke kan siges at have sproglig gyldighed (i Stubbs 2001:151). Kvantitative korpusanalyser formår således at afdække, hvilke sproglige fænomener der er reelle afspejlinger af en sprogbrug, og hvilke der blot er tilfældige forekomster i korpusteksterne. I kvalitative analyser bruges korpusdataene derimod til at identificere og beskrive sprogbrug, samtidig med at de bruges som autentiske eksempler på specifikke sproglige fænomener (McEnery/Wilson 2001:76). Pointen er følgelig, at de statistiske korpusanalyser ikke bør fungere som mål i sig selv, men derimod danne udgangspunkt for yderligere kvalitative analyser foretaget af LSP-oversætteren selv (Lager 1995:5). Ud fra det ovenstående, kan det udledes, at autentisk sprog forudsætter originalsprog. Danske tekster oversat til spansk bør derfor f.eks. aldrig indgå i et spansk referencekorpus, da oversatte tekster ikke udgør sande eksempler på naturligt sprog, idet en oversættelse påvirkes af dens kildetekst, og dermed ikke er repræsentativ for autentisk sprog (Vesterager 2011:53). 4 Korpustyper Nu hvor korpusset som begreb er blevet tydeliggjort, forekommer det rigtigt at præsentere de forskellige typer af korpora og deres kendetegn. De illustreres til en start i nedenstående skema (Biel 2010:3): 13/100

14 4.1 Færdiglavede korpora og ad hoc-korpora Helt i toppen af korpusbegrebstræet, findes de to overordnede typer af korpora: de færdiglavede, som David Y. W. Lee i 2010 forsøgte at lave en fortegnelse over i afsnittet What corpora are available? i bogen The Routledge Handbook of Corpus Linguistics ; og så de korpora der indsamles ad hoc, dvs. til et bestemt formål som brugeren måtte have i en bestemt situation. Sidstnævnte type ses også ofte blive kaldt engangskorpora eller LSP-korpora. Der findes masser af allerede færdiglavede korpora på både dansk og spansk på webbet. Et af de mest kendte - og samtidig også det største - spanske referencekorpora er Corpus de Referencia del Español (CREA) der tæller omkring 160 mio. tekstord og rummer tekster fra perioden Et eksempel på et stort referencekorpus på dansk kunne være KorpusDK som består af 56 mio. tekstord indeholdt i tekster fra 1983 til Begge hold bag de nævnte korpora arbejder på at udrulle opdaterede korpusversioner, så hullet fra henholdsvis 2002 og 2004 og indtil nu kan blive fyldt ud 3. 3 Opdateret spansk korpus i vente: endocument# Opdateret dansk korpus i vente: Jørg Asmussen fra DSL meddeler i en privat undertegnede, at det nye danske referencekorpus forventes at blive tilgængeligt på ordnet.dk-hjemmesiden dette efterår. Han nævner samtidig, at der bliver forskeradgang til tekstmaterialet i et nyt korpus, som DSL sammen med Dansk Sprognævn samler for projektet CLARIN 14/100

15 4.2 Referencekorpora Korpora kan inddeles i endnu to hovedgrupper: referencekorpora/generelle korpora og specialiserede korpora/specialkorpora. Termerne adskilt ved skråstreg kan benyttes uden betydningsforskel. Asmussen skriver, at førstnævnte hovedgruppe bør fungere som en sproglig stikprøve, der skal være repræsentativ for det pågældende sprog som sådant på et givent tidspunkt (Asmussen 2009:17). Angående teksttyperne indeholdt i referencekorpora understreger Sinclair, at et generelt korpus ikke består af materiale fra forskellige specifikke fagområder, men i stedet kun almensprogligt materiale indsamlet fra en række forskelligartede kilder, altså avisartikler, bøger, s osv. (Sinclair 1991:17). Asmussen uddyber dog i denne sammenhæng og skriver, at korpusset gerne skal være balanceret og indeholde alle mulige typer tekst, både skreven og mundtlig, offentlig og privat, almen og også lettere faglig, samtidig med at samtlige genrer og fagområder bør søges repræsenteret. Men han er enig med Sinclair så langt, at decideret faglig kommunikation mellem fagfolk bør undgås i ethvert referencekorpus (Asmussen 2009:2). Alle sprog har både LGP (Language for General Purposes) og LSP (Language for Special Purposes). Et referencekorpus består af LGP, som er den sprogbrug, der benyttes i hverdagen i almindelige situationer til at tale om almindeligt kendte ting med, hvorfor man som Bowker og Pearson kan vælge at kalde modersmålsbrugeren en ekspert inden for sit modersmåls LGP. Der kan altså tales om en hel masse forskellige temaer ved hjælp af LGP, samtidig med at der kan tales om de selvsamme temaer på et højere og specialiseret niveau ved at bruge LSP (Bowker/Pearson 2002:25). 4.3 Specialiserede korpora Kategorien specialiserede korpora kan siges at indeholde alle de korpora, der ikke er referencekorpora. I modsætning til sidstnævnte indeholder et specialiseret korpus nemlig kun tekster inden for et specifikt område af et sprog, f.eks. et bestemt emneområde, en specifik teksttype, en sprogvarietet eller sprog der bruges af et specifikt demografisk segment, eksempelvis teenagere (Bowker/Pearson 2002:12). Skellet kan nemmere tydeliggøres ved at gøre opmærksom på den sociale dimension, som LSP har i sig i kraft af sin sociallingvistiske oprindelse. Et samfund har jo som bekendt ikke en ensartet lingvistisk struktur. Det forholder sig sådan, at et nationalsprog kan inddeles i delsprog, de såkaldte varieteter, som mere entydigt kan benævnes LSP, der karakteriseres ved at være monofunktionelle, ved at have høj leksikalsk tæthed (forholdet mellem funktionsord og indholdsord), ved forholdsvist hurtigt at opnå leksikalsk mæthed ved indsamling af materiale om faget og ved at have et begrænset antal brugere (Fuertes-Olivera/Arribas-bano 2008:1). 15/100

16 LSP-teksterne kan være af meget varierende karakter og behandle alt fra et professionelt vidensområde til en hobby; forudsætningen er blot, at området er afgrænset. Udover at gøre brug af en bestemt terminologi kan LSP også kendetegnes ved at adskille sig fra LGP i form af sine afvigende/ uventede kollokationer og stilistiske træk, selvom der selvfølgelig også er mange overlap. Af den grund er det vigtigt ikke at tage noget for givet i sin oversættelse til L1 eller L2. En LSP-oversættelse kan f.eks. godt være grammatisk korrekt i henhold til LGP-regler, men på samme tid bryde med konventionerne der er karakteristiske for den sprogbrug, man nu engang forsøger at oversætte til. Bowker og Pearson nævner vejrprognoser som eksempel på en stilistisk meget afvigende genre (Bowker/Pearson 2002:37). Et specialiseret korpus er en meget anvendelig ressource for en oversætter, der gerne vil lære om de lingvistiske træk ved et LSP, eftersom vedkommende derigennem kan tilegne sig viden om både kollokationer, termer, grammatik og stil (Bowker/Pearson 2002:39). Anvendelsen af et LSP-korpus kan desuden afføde meget brugbare resultater, hvis det sammenholdes med et LGP-korpus, da det i så fald vil være muligt at påvise sammenligninger og - endnu mere interessant - kontraster mellem de to sprogbrug. 4.4 Monolingvale og multilingvale korpora De specialiserede korpora kan endvidere underinddeles i monolingvale/intralingvale og multilingvale/interlingvale korpora. Et monolingvalt korpus kan enten udgøres af et enkelt monolingvalt korpus eller af to eller flere sammenlignelige monolingvale delkorpora bestående af oversatte tekster og/eller originale tekster på det samme sprog. Et multilingvalt korpus er et korpus udgjort af to eller flere monolingvale delkorpora på to eller flere forskellige sprog og kan være enten parallelt eller sammenligneligt. 4.5 Parallelle korpora Et parallelt korpus indeholder altid to eller flere delkorpora. Det kan indeholde et delkorpus med originale tekster på sprog A samt et delkorpus eller flere delkorpora med disse teksters oversættelser til sprog B, C osv. Det forekommer dog også tit, at teksterne i et parallelt korpus alle er oversættelser af en ekstern tekst. Parallelteksterne periodealigneres, hvorved brugeren ved konkordanssøgninger på sprog A kan se den eller de tilsvarende perioder af teksten på sprog B, C osv. i et korpusanalyseværktøj. De parallelle korpora er kendetegnet ved at være svære at designe pga. den knappe materialemængde på webbet, af hvilken grund det i langt de fleste tilfælde slet ikke er muligt for korpusde- 16/100

17 signeren selv at sammensætte et parallelt korpus til et ønsket formål (Tognini-Bonelli 2001:7). De hyppigst forekommende paralleltekster kan findes i EU-regi, her tænkes specielt på hjemmesiden Sammenlignelige korpora Et sammenligneligt korpus derimod består af to eller flere delkorpora, der altid kun består af originale, naturlige tekster - og altså ingen oversættelser - skrevet på et eller flere forskellige sprog. Teksterne i et sammenligneligt korpus er blevet indsamlet i henhold til de samme designkriterier, af hvilken grund der foreligger et sammenligningsgrundlag. Enslydende kriterier bevirker, at de monolingvale delkorpora har visse karakteristika til fælles, f.eks. emneområde, genre, publiceringsperiode og/eller andet. Teksterne i et multilingvalt sammenligneligt korpus har [derfor] en emnemæssig og funktionel lighed mere end en oversættelsesmæssig ækvivalens (Selsøe Sørensen 2002:5). Tilstedeværelsen af oversættelsesmæssig ækvivalens ville snarere være karakteristisk for de parallelle, da de sammenlignelige korpora selvfølgelig ikke på samme måde som de parallelle kan periodealigneres: The problem with using comparable corpora to find translation equivalents is that there is no obvious bridge between the two languages. Unlike aligned parallel corpora, comparable corpora provide a model for each individual language, while dictionaries, which can serve as a bridge, are inadequate for the task in question, because the problem we want to address involves precisely translation equivalent that are not listed here (Sharoff et al. 2007: 17). Men det godt designede sammenlignelige korpus har den helt klare fordel i forhold til det parallelle, at det udelukkende består af autentiske data, på baggrund af hvilke der er grundlag for at kunne formulere de førnævnte pålidelige generaliseringer og gennemføre forsvarlige sproglige analyser. Sagen er nemlig den, at oversatte tekster inden for et fagområde tenderer imod at ligne hinanden mere end originaler inden for samme område, uanset hvor dygtig oversætteren måtte være (Aston 1999:13). 4.7 Åbne og lukkede korpora Der skelnes ydermere mellem lukkede/statiske korpora, der egner sig til sprogstudier inden for en afgrænset tidsperiode; og åbne/dynamiske korpora, der kan udvides og opdateres efter at være blevet sammensat. LSP-oversættere får åbenlyst størst udbytte af et åbent korpus, da fagsprogenes konstant forandrende og fornyende natur gør det nødvendigt for oversættere hele tiden at have 17/100

18 adgang til opdaterede data (Bowker/Pearson 2002:48). Verden omkring os samt sproget til at beskrive den med ændrer sig konstant, hvilket betyder, at de analoge ordbøger og de statiske/lukkede ordbøger online desværre hurtigt forældes. Konciperingen af en god fagordbog er en langvarig proces, hvilket for bl.a. den evigt voksende it-branche ofte vil medføre, at flere af artiklerne i ordbogen ikke længere vil være opdaterede i henhold til gældende sprogbrug på tidspunktet for dennes udgivelse - eller kort tid derefter. De velkendte døde ord, der ikke længere er en del af den nuværende sprogbrug, kan altså forekomme, samtidig med at der kan være blevet tilføjet nye ord Homogene og heterogene korpora Slutteligt skelnes der mellem homogene og heterogene korpora, altså korpora der henholdsvis er sammensat af tekster af samme type og korpora sammensat af mange forskellige teksttyper, såsom artikler, s, manualer osv. (Aston 2001:43). 5 Sådan designes et sammenligneligt, bilingvalt specialkorpus Et korpus kan ikke overraskende indsamles og designes på utallige måder, idet disse handlinger foretages i henhold til korpusbrugernes mange forskelligartede behov, samt ressourcerne (tid, penge og viden) disse har til rådighed. Der er som allerede kort nævnt rigtig mange ting at tage stilling til i forbindelse med valg af korpusdesign. Det er dog muligt at opstille generelle faser og retningslinjer, der kan bruges som udgangspunkt for sammensætningen af et specialkorpus. Før korpusbrugeren kan være i stand til at vurdere, om der skal eller kan ekskluderes faser, skal denne først gøre sig klar, hvilke ønsker og behov han/hun har i forhold til korpusplatformens funktionaliteter for at kunne opfylde formålet med korpusundersøgelserne. Til definitionen af en korpusplatform gøres der brug af forklaringen, som gives i projektet Mulincos (Multilingual Corpus of the University of Copenhagen), der lyder som følger: En korpusplatform består grundlæggende af dels de korpora der tilvejebringes, dels de tekniske muligheder der tilbydes af korpus[analyse]værktøjerne (Maegaard et el. 2006:19). Baseret på de varierede forslag til faser, som forfattere som Bowker, Lynne, Aston, Sinclair med flere lægger for dagen, er konklusionen blevet, at udarbejdelsen af et korpus oftest inkluderer følgende grundlæggende faser: /100

19 1) Design 2) Indsamling 3) Forberedelse 5.1 Design Bowker og Pearson formulerer meget klart, hvilke overordnede overvejelser der, ifølge dem, bør være en del af designfasen, dvs. hvilke designkriterier for korpusteksterne der bør fastsættes, inden lokaliseringen og indsamlingen af tekster påbegyndes. Første skridt på vejen er at definere den helmængde, som specialkorpusset skal være en repræsentativ del af, hvorefter de følgende designparametre bør tages op til overvejelse: - Korpusstørrelse - Tekstuddrag/hele tekster - Antal tekster - Skrevet/transskriberet/kombineret tekst - Emne - Teksttype - Forfatter - Sprog - Publiceringsdato (Bowker/Pearson 2002:vi/54) Nøje udvalgte og opfyldte kriterier er af største vigtighed i forbindelse med udarbejdelsen af et korpus, da disse jo lægger basis for et repræsentativt korpus, hvilket, som nævnt i repræsentativitetsafsnittet, bestemmer kvaliteten af resultaterne af de sproglige undersøgelser. 5.2 Indsamling Når designkriterierne er blevet fastsat, kan indsamlingen begynde. Tekstindsamlingsfasen indebærer både lokalisering, indsamling og evt. formatering af tekster til korpusset samt indsamling og registrering af metainformation, dvs. information om hver enkelt tekst, der måtte være nødvendig og relevant i det enkelte tilfælde. Lokaliseringen af tekster finder sted i elektronisk tilgængeligt, autentisk materiale. En helt særlig kvalitet ved anvendelsen af korpora er, at korpusbrugeren i løbet af indsamlingsfasen får tilegnet sig vigtig terminologi, sideløbende med at vedkommende støt og roligt sættes ind i det nye emneområde. I The Effects of Repeated Word Exposures on Incidental Vocabulary Learning henviser forfatterne til ny forskning, som viser, at en læser får større chancer for at kunne lagre en 19/100

20 ukendt term i langtidshukommelsen, jo flere gange denne støder på den (Chen/Truscot 2010:694). Oversættelsesfejl grundet manglende emneforståelse kan derved forventes reduceret. De fleste oversættelsesfejl udgøres nemlig ikke engang af forkerte termvalg, men derimod af forkert brug af en korrekt term (Bowker/Pearson 2002:155). Hvis korpusdesigneren har til hensigt at koncipere en ordbog e.l. inden for et konkret fagområde, indvender flere korpuslingvister imidlertid, at tekstudvælgelsen bør finde sted sammen med en ekspert. John Sinclair skriver, at korpustekstindsamling næppe er en opgave for en lingvist, da denne kun bør tage sig af at beskrive og analysere sprog placed before him or her (Sinclair 1991:13). 5.3 Forberedelse I den forberedende fase geares teksterne til at kunne opfylde det på forhånd fastsatte formål, hvilket i korpussammenhæng betyder, at korpusteksterne opmærkes med sproglige oplysninger. De skal altså behandles eller forberedes på en sådan måde, at de sproglige undersøgelser kan blive udbytterige for korpusbrugeren og den specifikke situation denne står i. Annotering og lemmatisering udgør de væsentligste elementer i forberedelsesfasen, men bør ikke af den grund inkluderes i alle korpusundersøgelser kun når nødvendigt. Førstnævnte angiver ordenes ordklasse mens sidstnævnte finder den kanoniske form af en ordform (Maegaard et al. 2006:4). Forberedelsesfasen er ikke relevant for casens formål, hvilket vil blive begrundet i afsnit Korpusanvendelse Der er nu blevet redegjort for korpustyperne, ligesom der er blevet redegjort for det trinvise forløb i udarbejdelsen af et sammenligneligt, bilingvalt specialkorpus. Derfor kan de forskellige formål, til hvilke korpora kan anvendes, nu blive beskrevet. Som i designafsnittet må det indledningsvist siges, at korpora har lige så mange anvendelsesmuligheder, som der er brugere, idet de netop bruges i henhold til disses forskellige formål. Et grundigt designet og åbent korpus kan bruges som et brugbart oversættelsesredskab i rigtig lang tid, eftersom korpusdata først og fremmest er objektive, genanvendelige, multifunktionelle, mulige at udvide og derved også mulige at forbedre/opdatere. Trods alsidigheden er det dog muligt at opridse de generelle forskningsområder, der meget formålstjenligt vil kunne gøres til genstand for sproglige korpusundersøgelser. Astons liste over anvendelsesmuligheder er i den henseende blevet indsat direkte, omend oversat fra engelsk: 20/100

21 1. Studere en forfatter og dennes måde at skrive på med henblik på at kortlægge særlige karakteristika ved forfatterens skrivestil 2. Studere moderne lingvistik ved at beskrive forskellige aspekter af et sprog, dvs. f.eks. en dialekt, genre eller et LSP. Her kan både inkluderes skrevne, mundtlige og transskriberede tekster. 3. Sammenligne forskellige sprog eller sprogvarianter: 4. To eller flere forskellige sprog (oversættelsesstudier) 5. To eller flere dialekter/regionale variationer (f.eks. britisk engelsk vs. amerikansk engelsk) 6. Diakroniske studier (samme sprog fra to forskellige historiske perioder) 7. To eller flere former for sprogbrug (f.eks. teksttyper og genrer) 8. Leksikografistudier - specielt ordbogsarbejde 9. Forske i sprogundervisning/sproglæring (Aston 2001: 46) 2, 4 og 8 er naturligvis de punkter, der er relevante for afhandlingen. Et korpus egner sig glimrende til udtrækning af termer, da brugeren får nemmere ved at finde den korrekte term ved at se den i sin kontekst. Et af de største problemer ved at finde termer i ordbøger er netop, at de ofte behandler lemmata isoleret og uden angivelse af, hvordan og hvor ofte de anvendes i en specifik oversættelsessituation. Men mindst lige så vigtigt er, at korpora kan give brugeren en ide om, hvordan en term ikke bruges i en fagspecifik kontekst, på trods af, hvad der evt. måtte være angivet i ordbøgerne (Bowker/Pearson 2002:17), for via korpora gøres brugerne ekstra opmærksom på både sprogbrug, stil og hyppighed (Aston 1999:5). Via korpusundersøgelserne får de mulighed for bl.a. at finde kollokationer, identificere genrespecifikke konventioner, få bekræftet intuitioner om oversættelser eller oversættelsesækvivalenter samt at koncipere ordbøger eller ordlister. Ligeledes vil de i rigtig mange tilfælde også blive i stand til at formidle lemmaets semantiske betydning ud fra konteksten, det optræder i. Derudover giver de oversætterne mulighed for hurtig adgang til et enormt, autentisk kildemateriale, ud af hvilket der i løbet af sekunder ligeledes kan udtrækkes vigtige sproglige statistikker, såsom ordlister, keywordlister og konkordanser (Corpas Pastor/Seghiri Domínguez 2009:77). Jf. punkt 8 vil leksikografer, der baserer deres arbejde på korpora imidlertid løbe ind i to problemer, nemlig manglende eller for få belæg for nogle termer og uoverskueligt mange belæg for andre. Det første problem kan løses ved at konsultere konventionelle oversættelsesredskaber eller ved at udvide korpusset, mens sidstnævnte problem kan løses via korpusanalyseværktøjernes mange forskellige funktioner, der giver oversætteren mulighed for at strukturere dataene (Bergenholtz/Tarp 1994:29). 21/100

22 6.1 Korpusanalyseværktøj I søgningen efter et adækvat korpusanalyseværktøj, der kan bruges til de tiltænkte korpusundersøgelser, bør oversætteren først og fremmest gøre sig klart, hvilket udbytte han eller hun forventer at få ud af analyserne. Der kan rekvireres både kommercielt software, f.eks. WordSmith Tools 5, og gratis software, f.eks. Simple Concordance Programme 6, ligesom der også findes shareware, dvs. software med tidsbegrænset gratis prøveperiode. Frem for et indgående og - i denne afhandling - unødvendigt indblik i forskellige analyseværktøjer, vil der i caseafsnittet blive argumenteret for valg af konkret analyseværktøj til casen samt blive givet en beskrivelse af værktøjets funktionaliteters adækvathed i forhold til caseundersøgelserne. 7 Casens korpusplatform En korpusplatform udgøres, som nævnt i afsnit 5, af såvel korpora som korpusanalyseværktøj, der tilsammen udgør et overordentligt vigtigt oversættelsesværktøj i casen. I de følgende underafsnit vil korpusplatformen, der skal bruges i casen, blive beskrevet. Platformen kommer til at omfatte specialkorpusset, de to referencekorpora samt korpusanalyseværktøjet AntConc. 7.1 Design af SEO-korpus Casens specialkorpus skal udgøre en repræsentativ del af korpustekster omhandlende SEO, hvorfra det skal være muligt at udtrække højfrekvente nøgletermer på dansk og spansk inden for fagområdet. Vha. samme korpus skal det dernæst være muligt at udtrække tilhørende leksikografiske data. Ud fra Bowker og Pearsons designparametre er følgende skema for de to specialiserede SEO-korpora til brug i casen blevet udfærdiget: Design Størrelse Uddrag eller fuldtekst Medium/Kanal Korpusstørrelsen medtages ikke som et på forhånd fastsat kriterium. Hvorvidt de to kompilerede delkorpora indeholder tilstrækkelige data, findes der først ud af efter indsamlingsfasen vha. en beregning af deres repræsentativitet gennem ReCor-programmet. I kraft af at udbydernes tekster om SEO har vist sig at være meget længere på dansk end på spansk, er der blevet indsamlet et større antal spanske tekster. Det er fuldtekster fundet på SEO-udbyderes hjemmeside under servicios/services SEO, der er blevet inkluderet i delkorporaene. Der er kun indsamlet skrevet materiale fra www, dels ud fra et ressourcebespa- 5 Læs mere her: 6 Læs mere her: 22/100

23 Emne Teksttype Forfatter Sprog Publiceringsdato rende perspektiv, da det kan tage lang tid at scanne eller skrive analoge tekster ind på computeren, kopiere fra cd-rommer m.m., og dels for at gøre den foreslåede fremgangsmetode så alment anvendelig, hurtig og ligetil som muligt for oversætteren. Søgemaskineoptimering SEO-produkt-/servicebeskrivelser på site:es- og site:dk-hjemmesider. Bevæggrunden for at inkludere tekster fra SEO-udbyderes hjemmesider er, at de er tilgængelige for enhver og findes i et meget varieret omfang. Endnu en årsag til dette valg er, at udbyderne henvender sig til sit publikum med et kommunikativt formål, der kan defineres som fagmand halv-fagmand eller fagmand lægmand. Udbyderne forsøger at sælge de potentielle emner, der kan konverteres til kunder, en service, som de kender til, men tilsyneladende ikke ved nok om til at kunne lave SEO in-house, eftersom de søger en udbyder til at udføre SEO-arbejdet for sig. Mange af begreberne må derfor ventes at blive ekspliceret og forklaret i større eller mindre grad på hjemmesiderne, hvilket hjælper til at opfylde både det sproglige og det saglige formål med casen. Der er aldrig brugt data fra samme hjemmeside to gange, og ingen af teksterne er skrevet af den samme person. De mange varierede websites skal medføre et nuanceret og objektivt kildemateriale. Til casens leksikografiske formål er det meget vigtigt at korpusteksterne udgøres af autentisk, termrigt sprog, der er upto-date og pålideligt. Dansk (Danmark) og spansk (Spanien) I dette regi kaldet aktualiseringsdato. Langt de fleste websites er aktualiseret i 2011, mens enkelte senest blev aktualiseret i 2010 (seneste aktualiseringsdato findes ved at indsætte javascript:alert(document.lastmodified) i browseren. 7.2 Indsamling af tekster til SEO-korpus I afhandlingens case sker indsamlingen af SEO-tekster i henhold til skarpt afgrænsede kriterier, samtidig med at der efterfølgende benyttes relevant analyseværktøj og sparring med ekspert i tilfælde af tvivl, hvorfor der bør kunne argumenteres for, at udkommet af de sproglige analyser må kunne betragtes som pålideligt, selvom korpusteksterne er indsamlet af en lingvist/oversætter, hvilket altså strider imod Sinclairs overbevisning. Lokaliseringen af teksterne er kommet i stand vha. søgemaskinen Google - según un gran número de analistas el mejor por calidad en el resultado de las búsquedas (Seghiri Domínguez 2006:295). Google har den mest omfangsrige søgedatabase til dato - dog stærkt forfulgt af Bing. Alle danske tekster er fundet på mens alle de spanske er indsamlet via For at sikre sig kun at få vist sider på spansk fra Spanien bør søgekriterierne 23/100

24 specificeres inde på siden under búsqueda avanzada. Samme fremgangsmetode er naturligvis brugt i forbindelse med de danske tekster: Rigtig mange korpuslingvister inddrager Austermühl i deres redegørelser for, hvordan de har søgt efter elektroniske tekster til deres korpora, fordi han enkelt og letforståeligt opdeler datasøgning på webbet i tre forskellige kategorier: 1. Søgninger på internationale organisationer eller institutioners website. Korpusbrugeren indtaster en specifik URL-adresse og søger tekster fra de forskellige sider på dette site. 2. Søgninger i systematiske kataloger - også kendt som søgninger i kategorier eller emneregistre. Websitene indeholdt i disse kataloger eller registre er organiseret i henhold til emner. 3. Keywordsøgninger i søgemaskiner. I søgefeltet på en søgemaskine indtaster korpusbrugeren et eller flere søgeord, som forventes at optræde i den type tekster, som denne søger. (Austermühl 2001:52) Hvordan søger korpusbrugeren så efter tekster om et emne, som denne i teorien først skal til at finde ud af, hvad omhandler? Før brugeren kan påbegynde sine søgninger, skal vedkommende finde frem til URL-adresserne, katalogerne eller udvikle adækvate søgeord. En vis mængde forhåndsviden må altså være til stede, før en eller flere af søgemulighederne kan tages i brug. Denne viden kan forholdsvist let og hurtigt opnås ved at skimme bøger, artikler o.l. igennem, ved at surfe på webbet eller via forudgående samtaler med vidende personer eller eksperter. En søgetype kan ikke siges at være bedre end andre, da deres respektive effektivitet altid vil afhænge af fagområdet, der er genstand for søgningerne. Til indsamling af SEO-teksterne vælges fortrinsvist keywordsøgninger, og i enkelte tilfælde søges der via de systematiske kataloger, mens første mulighed slet ikke benyttes. Det skyldes, at de institutionelle søgninger ikke egner sig til alle fagområder, samt at de forudsætter mere omfattende forudgående informationssøgninger end de to andre, med mindre, som Austermühl foreslår, brugeren bare gætter sig frem til en URL-adresse (Austermühl 2001:53). F.eks. ville søgestrengene søgemaskineoptimering organisation eller søgemaskineoptimering institution generere resultater i Google af meget svingende relevans og pålidelighed. Selv søgninger på overbegreber som it, optimering o.l. sammen med organisation eller institution ville ikke hjælpe brugeren videre i sin søgning i henhold til mulighed 1. Den første søgekategoris uadækvathed kommer bedre til udtryk ved sammenligning med Corpas Pastor og Seghiri Domínguez artikel fra 2009, hvori de hovedsageligt via specifikke organisationers website indsamler tekster til brug ved oversættelse af rejseforsikringer. 24/100

25 Rejseselskaber og forsikringsselskaber udgør imidlertid en ret specifik genre, som der umiddelbart - altså uden inddragelse af overbegreber og uden forudgående sparring med ekspert - kan søges data om på webbet. Der findes enkelte systematiske kataloger om SEO på www, men den klart mest ligefremme fremgangsmåde er at starte ud med at indsamle så mange tekster som muligt via velformulerede, præcise keywordsøgninger i søgemaskinen Google. Det anbefales, som nævnt, at foretage nogle indledende søgninger på Google, f.eks. ud fra termerne SEO og søgemaskineoptimering for at danne sig et overblik over terminologien og dermed relevante keywords, der kan indtastes i Googles søgefelt. Til at specificere søgningerne og gøre dem mere vedkommende for formålet med korpusanalyserne senere i afhandlingen benyttes desuden Google-funktionen, der tillader brugeren at udelukke termer. De spanske ord blog, blogs, foro og foros samt de danske ord blog, blogs, forum og fora ekskluderes, for at minimere mængden af sjusket sprog og fejlagtig sprogbrug, som i højere grad vil kunne forventes at være til stede i fora og blogs for både læg- og fagfolk: Funktionen fungerer på akkurat samme måde som de følgende logiske operatorer (boolean searches): AND, OR, - og +. Det eneste systematiske katalog, igennem hvilket der søges tekster til casens to delkorpora, er Google-kataloget placeret på som tillader brugeren at foretage relevante søgninger inden for specifikke interesseområder: Edb > Internet > Webdesign og udvikling > [lokalisering] Edb > Internet > Konsulentvirksomheder Efter endt lokalisering skal teksterne i de fleste tilfælde konverteres til flade tekster; dermed menes dokumenter, der kun indeholder bogstaver, mellemrum og skrifttegn. Teksterne skal renses for al anden afsnits- og tekstformatering samt billeder, som ikke har relevans for korpusplatformen. Dette kan gøres ved først at lokalisere den ønskede tekst og dernæst kopiere alt indhold ind i tekstredigeringsprogrammet Notepad, der som standard gemmer tekster i.txt-format. Nedenfor ses et website, der efterfølgende er gemt som.txt-dokument: 25/100

26 Det anbefales på det kraftigste at gemme alle tekster i separate filer og samtidig - som minimum - lade virksomhedens navn samt dato for indsamling gøre det ud for filnavn. På denne måde bliver det mere overskueligt at lokalisere den eksakte kilde efterfølgende, samtidig med at de respektive kilder fremtræder troværdigt, klart og adskilt i korpusanalyseværktøjet. Som allerede nævnt vil det specialiserede SEO-korpus, indsamlet i henhold til de netop fastsatte kriterier, blive ubalanceret, da der er lagt større vægt på kvalitet end kvantitet. Herved skal forstås at de 26/100

27 danske virksomheder oftest lægger meget uddybende og forklarende tekster om SEO ud på deres websites, mens teksterne generelt er væsentligt kortere og ikke nær så uddybende på de spanske, hvorfor der kræves en del flere tekster på spansk. Selvom spansk i langt højere grad er til stede på www end dansk 7, så bliver der ved søgninger på tekster om SEO ikke genereret lige så gode og brugbare resultater på spansk som på dansk. Casens specialkorpus vil dog alligevel være særdeles homogent, da både formål og designkriterier nøje er blevet holdt for øje gennem indsamlingsfasen. Valget af korpus til brug i casen er faldet på et sammenligneligt, bilingvalt korpus bestående af to delkorpora på dansk og spansk, da korpusteksterne skal danne base for udtrækning af pålidelige fagsproglige og fagspecifikke data til brug ved LSP-oversættelser. Dertil er der brug for autentisk materiale en betingelse som de parallelle, dvs. de oversatte, korpustekster ikke kan udfylde. Det specialiserede korpus, der designes og indsamles til brug i casen, skal kunne anvendes som hjælpemiddel i forbindelse med oversættelsesopgaver inden for SEO i et godt stykke tid fremover og skal derfor være grundigt designet. Faber Benítez understreger valget fint, idet hun siger: from the point of view of conceptual documentation that any translator of specialised texts needs to carry out, multilingual comparable corpora are the resource of choice. (Faber Benítez 2009:18). En egentlig forberedelse af korpusteksterne, jf. tredje og sidste fase, har ikke været nødvendig. Korpusplatformen skal egne sig til udtrækning af vigtige nøgletermer og andre sproglige og saglige data, og altså ikke til f.eks. syntaktiske undersøgelser, hvorfor den eneste form for opmærkning vil være at finde i filnavnet, hvor websitets navn samt årstal for aktualisering angives. 7.3 Korpusspecifikationer Det har været nødvendigt at indsamle et dansk referencekorpus ud fra beskrivelsen i afsnit 4.2, idet der til caseanalyserne er brug for tekster i.txt-format, der således er kompatible med programmet AntConc. Der findes, som nævnt, både kvalificerede og troværdige danske og spanske referencekorpora, som kunne være blevet anvendt til caseformålet, hvis ikke det var fordi, de kun havde en online søgefunktion, og teksterne ikke kunne downloades. Det spanske referencekorpus er kompileret af spanieren Ismael Arinas Pellón, ekstern lektor ved Handelshøjskolen i Århus med korpora som interesse- og forskningsområde, mens det danske er kompileret af undertegnede, dvs. en dansk cand.ling.merc.-studerende med profilen tolk og translatør inden for spansk. Det danske referencekorpus går ganske enkelt i fodsporene på det pålidelige spanske korpusdesign. 7 Top Ten Languages Used in the Web: 27/100

28 Spansk referencekorpus Størrelse Ord: / Tokens: Antal tekster 920 Uddrag eller fuldtekst Fuldtekst Medium/Kanal Kun skrevet materiale Emne Teksttype Sprog Publiceringsdato LGP s, brochurer, breve fra det offentlige, love, avisartikler, nyhedsbreve fra fagforeninger, romaner, pressemeddelelser, opskrifter, hjemmesider, tilbud, blogindlæg, boganmeldelser, telefon- og internet-serviceaftaler, eventyr, readme-filer, vittigheder og reglementer Spansk (Spanien) Teksterne er fra det 20. og 21. århundrede Dansk referencekorpus Størrelse Types: / Tokens: Antal tekster 948 Uddrag eller fuldtekst Fuldtekst Medium/Kanal Emne Teksttype Sprog Publiceringsdato Kun skrevet materiale LGP s, brochurer, breve fra det offentlige, love, avisartikler, nyhedsbreve fra fagforeninger, romaner, pressemeddelelser, opskrifter, hjemmesider, tilbud, blogindlæg, boganmeldelser, telefon- og internet-serviceaftaler, eventyr, readme-filer, vittigheder og reglementer Dansk (Danmark) Teksterne er fra det 20. og 21. århundrede De to kompilerede referencekorpora er slet ikke nær så omfangsrige som f.eks. British National Corpus : 100 mio. tekstord, Corpus del Español : over 100 mio. tekstord, Corpus de Referencia del Español (CREA) : 200 mio. tekstord eller ordnet.dk for den sags skyld: 56 mio. tekstord, men casens to referencekorpora består af varierede tekster og er væsentligt større end de to delkorpora, hvorfor de trods alt udfylder deres funktion som referencekorpora. Dette bringer os videre til designdataene for de to specialiserede korpora: Dansk SEO-korpus Størrelse Types: / Tokens: Antal tekster 104 Uddrag eller fuldtekst Fuldtekst Medium/Kanal Emne Kun skrevet materiale, ikke transskriberet eller kombineret Søgemaskineoptimering 28/100

29 Teksttype SEO-produkt-/servicebeskrivelser fra danske hjemmesider Forfatter Samme virksomhed går ikke igen to gange Sprog Dansk Publiceringsdato Spansk SEO-korpus Størrelse Types: / Tokens: Antal tekster 136 Uddrag eller fuldtekst Medium/Kanal Emne Teksttype Fuldtekst Kun skrevet materiale Søgemaskineoptimering SEO-produkt-/servicebeskrivelser fra spanske hjemmesider Forfatter Samme virksomhed går ikke igen to gange Sprog Spansk Publiceringsdato Korpusanalyseværktøjet AntConc Det er, som allerede omtalt, ikke nødvendigt at investere i software med annoteringsfunktioner for at kunne opfylde formålet med casen. Softwaren skal være lettilgængelig og overskuelig for LSPoversætteren, af hvilken grund valget er faldet på konkordansprogrammet AntConc, som tilbyder alle de analysefunktioner, der er vedrørende for caseundersøgelserne, samtidig med at programmet er almindeligt anerkendt og har et simpelt og brugervenligt design. Softwaren kan downloades gratis fra Laurence Anthonys website: AntConc består af en række redskaber, der hver især indeholder en stribe analysefunktioner, som gør det muligt for brugeren at benytte sig af præcis de analyser, der har relevans for netop dennes formål. Ikke alle AntConc-funktioner vil blive brugt i casen, men det er under alle omstændigheder relevant at vide, hvilke muligheder analyseværktøjet rummer, således at valg af analysefunktion i en given situation bliver nemmere at forstå. Derfor redegøres der i det følgende ganske kort for alle de overordnede funktioner. Uddybende tekniske informationer skal findes på Laurence Anthonys website. Undervejs i den praktiske udarbejdelse af caseproduktet vil valg af funktioner i AntConc løbende blive forsvaret og forklaret. Først ses et screen dump af brugergrænsefladen, dernæst gives der en beskrivelse af de overordnede redskaber: 29/100

30 Concordance Redskabet viser den søgte term centralt placeret i hver af de genererede konkordanslinjer, hvilket med et hyppigt brugt engelsk udtryk kaldes keyword in context (KWIC). I funktionen search window size kan brugeren angive antallet af karakterer, der skal vises på skærmen før/efter søgetermen. Via kwic sort kan brugeren, ud over at få fremhævet den søgte term, få fremhævet op til tre ord et hvilket som helst sted til højre og/eller venstre for termen. Resultaterne vises alfabetisk i henhold til ordene på placeringen angivet i Level 1 i konkordanslinjen. Hvis der trykkes på et af de fremkomne keywords, leder programmet brugeren hen til funktionen file view. Derudover er det muligt at søge efter en term, der optræder i nærheden af et såkaldt context word, som brugeren angiver i advanced ved siden af søgefeltet. Denne funktion lader sig udføre inden for så lille eller så stort et ordvindue (context horizon) til venstre og/eller højre for termen, som brugeren måtte ønske. En anden utroligt udbytterig funktion er muligheden for at gøre brug af trunkering/wildcards i søgningen efter termer. De mest almindeligt brugte er: 30/100

31 * 0 eller flere karakterer + 0 eller 1 karakter? Hvilken som helst karakter # Hvilket som helst ord Term1 eller Term2 (antconc:antcon) Afkrydsningsfeltet case umiddelbart over søgefeltet gør det muligt for korpusbrugeren at skelne mellem majuskler og minuskler i sine søgninger, mens regex udfører samme funktion som trunkeringen *. Concordance Plot I forlængelse af concordance, der viser, hvordan de(n) søgte term(er) bruges, viser dette værktøj, hvor i teksten de(n) forekommer. Efter indtastning af en søgeterm viser værktøjet et antal rektangler, der skal forestille længden på de tekster, hvori den søgte term indgår. De tynde vertikale linjer i rektanglerne indikerer, hvor langt henne i teksten termen forekommer. Ved tryk på en af linjerne dirigeres brugeren hen til File View. Til højre for hvert enkelt rektangel vil antallet af forekomster samt tekstlængden (antal karakterer) være ekspliciteret, som illustreret nedenfor: File View Via denne funktion gives brugeren mulighed for at tilgå en enkelt korpustekst og foretage søgninger i kun denne - i stedet for hele korpusset. Clusters Søgninger i redskabet clusters vil generere søgeresultater udgjort af klynger af ord, der optræder sammen med de(n) indtastede term(er). Resultaterne kan ordnes både alfabetisk og efter hyppighed. Brugeren har mulighed for selv at definere størrelsen på klyngen. Collocates Efter indtastning af en term samt fastsættelse af ordvinduets størrelse genererer redskabet en liste over de ord, der optræder sammen med termen inden for det angivne ordvindue. Listen kan være 31/100

32 ordnet alfabetisk eller efter hyppighed. Ved at klikke på et af kollokaterne vises alle dets forekomster i hele korpusset i concordance-funktionen. Word List Værktøjet genererer en liste over alle de ordtyper, der optræder i analysematerialet. Søgeresultaterne kan ordnes efter frekvens eller alfabetisk. Keyword List Funktionen giver brugeren mulighed for at sammenligne en ordliste fra f.eks. et specialiseret korpus med en ordliste fra et referencekorpus - og med afsæt heri generere en liste over keywords, der optræder med usædvanlig hyppighed i det specialiserede. Hvis der er mange flere forekomster af et bestemt ord i LSP-korpusset end i referencekorpusset, betegnes det som et positivt keyword, mens det i tilfælde af betydeligt færre forekomster betegnes som negativt. Ordene rangeres efter, hvor mange flere gange de vises i specialkorpusset end i referencekorpusset. Resultaterne er altså altid relative, idet et ord altid kun er hyppigt forekommende i forhold til nogle andre ord (antconc:antcon). 8 ReCor: Bagvedliggende processer Korpuslingvistikken har igennem lange tider behandlet korpusstørrelsen som den vigtigste forudsætning for repræsentativitet, og der er efterhånden blevet formuleret en del algoritmer, som på forskellig vis beregner et minimum af ord eller tekster, som et korpus skal indeholde, før det kan kaldes repræsentativt og have videnskabelig gyldighed. I det følgende afsnit vil softwareprogrammet ReCor og dets bagvedliggende processer for udregningerne derfor blive beskrevet Udviklerne bag ReCor (Representativeness of Corpora)-softwareprogrammet, eller rettere sagt N-Coralgoritmen som programmet baserer sig på, har haft til hensigt at opstille en algoritme, der a priori kan foretage en kvantitativ beregning af, hvornår et korpus er tilstrækkeligt repræsentativt - uanset sprog, genre og deslige. A priori betyder her efter tekstindsamling og før selve korpusanalyserne. Minimumstørrelsen på korpusset kan aflæses på en graf, som ReCor-programmet generer automatisk, efter de relevante dokumenter er blevet uploadet i det. Grafen illustrerer forholdet mellem type/token-ratioen og det samlede antal af tekstord eller dokumenter i korpusset (Corpas Pastor/Seghiri Domínguez 2007a). Vha. en kvantitativ analyse, som ReCor-analysen jo er, er det altså muligt at efterprøve, hvorvidt et korpus statistisk set er repræsentativt, men ikke hvorvidt det sprog- 32/100

33 lige indhold er relevant eller/og af god kvalitet. For at sikre sidstnævnte må designkriteriernes vigtighed og nøjagtighed atter understreges. Hermed følger nogle grundlæggende informationer om programmet, indsat fra en privat fra Seghiri Domínguez, der skal stadfæste dets troværdighed: Premio: - Premio: Premio de Investigación en Tecnologías de la Traducción - Institución: El Premio de Investigación en Tecnologías de la Traducción, en su III edición, fue concedido por el Observatorio de Tecnologías de la Traducción (Red Temática TIC E) de la Universidad Europea de Madrid al trabajo RECOR: Nuevo método para determinar la representatividad de un corpus. URL: < - Año de obtención: 2007 Patente: - Título del resultado de la investigación: Nuevo método para determinar la representatividad de un corpus. - Descripción breve de su contenido: Aplicación informática que permite, por primera vez, determinar a priori la representatividad de corpus. - Objetivos: La utilización de corpus es uno de los recursos traductológicos por excelencia. Sin embargo, hasta la fecha, no existían métodos capaces de determi-nar su tamaño mínimo. Esta aplicación informática, de sencillo manejo, permite el establecimiento del umbral de la representatividad de dichos corpus. - Número de solicitud de la patente: P Fecha de solicitud de la patente: 11/12/ Fecha de Concesión: 21/01/ Fecha de Publicación de la Concesión: 03/02/ Clasificación Principal: G06F17/27A4 - Clasificación PCT: G06F17/27 - País de prioridad: España - Provincia: 29 N-Cor-algoritmen arbejder ud fra princippet om, at en graf med type/token-ratioen (y) som funktion af antallet af tekstord eller dokumenter (x) i starten vil være nogenlunde proportionelt faldende, men på et tidspunkt flade så meget ud, at der kan argumenteres for at korpusset er mættet, og der er opnået et tilstrækkeligt antal ord i korpusset. Grafen vil flade ud, eftersom der vil blive tilført færre nye ordtyper, efterhånden som der tilføjes flere og flere tekstord (Biber 1993:250). Korpusset kan 33/100

34 således kaldes repræsentativt, hvis type/token-ratioen forbliver stort set den samme, selvom der skulle blive tilført flere tekstord. Algoritmen søger ikke at udregne et universelt gældende antal ord, som et korpus inden for genren SEO-produkt- eller servicebeskrivelser skal indeholde. Algoritmen bruges tværtimod i hvert enkeltstående tilfælde til at determinere, hvorvidt korpusset i den pågældende situation er repræsentativt eller ej (Corpus Pastor/Seghiri Domínguez 2007b:165). Resultatet der genereres i ReCor bliver, som nævnt, en graf, der illustrerer forholdet mellem type/token-ratioen og det samlede antal tekstord/tekster inklusiv tre filer med forskellige sproglige statistikker, som specificeres i afsnit 9. Nedenstående N-Cor-algoritme udregner minimumstørrelsen på korpusset ved at analysere type/token-ratioen (d) i forhold til den trinvise udvidelse af korpusset (C) dokument for dokument: C n = d 1 + d 2 + d d n (Corpas Pastor/Seghiri Domínguez 2007a) I de to følgende afsnit forklares de bagvedliggende processer i ReCor-programmet, og dermed hvordan hele softwaren fungerer. 8.1 Trin 1 Første skridt på vejen er at udregne type/token-ratioen for hver enkelt tekst. Til en start foretages udregningerne i teksternes alfabetiske rækkefølge. Beregningen af type/token-ratioen i tekst nr. 1 ser altså således ud: Ved tekst nr. 2 bruges samme beregningsmodel - dog vil mange af ordtyperne i tekst 2 uvægerligt allerede være at finde i tekst 1, hvorfor det er de ikke allerede inkluderede ordtyper fra tekst to samt ordtyperne fra tekst 1, der tæller med i beregningen. Dvs.: Udregningen for tekst 3 bliver følgelig: 34/100

35 Programmet følger denne metode, indtil der foreligger udregninger for alle korpusteksternes type/token-ratio (Corpus Pastor 2007b:166). 8.2 Trin 2 Ud fra udregningerne i trin 1 kan programmet nu generere to diagrammer, hvert indeholdende to grafer. Det første diagram indeholder variablerne antal tekster (x) og type/token-ratio (y), den næste variablerne antal tekstord (x) og type/token-ratio (y). Den ene graf er indtegnet i henhold til teksternes alfabetiske rækkefølge og den anden i tilfældig rækkefølge. Sidstnævnte skal sikre, at rækkefølgen ikke har betydning for grafernes forløb. Når tidspunktet kommer, hvor grafen flader ud og forbliver nogenlunde stabil i nærheden af nul på y-aksen, betyder det, at der er nået en passende og repræsentativ korpusstørrelse set ud fra et statistisk perspektiv. Graferne vil altid variere en anelse, da der hele tiden vil blive tilføjet tekster til korpusset indeholdende en vis mængde hapax legomena (enkeltstående forekomster) i form af f.eks. proprier og adresser (Corpas Pastor/Seghiri Domínguez 2009:90). 9 ReCor: Brug i praksis I forlængelse af sidste afsnit, der forklarede teorien bag programmet, vil det i nærværende afsnit blive beskrevet, hvorledes ReCor anvendes i praksis i casen. ReCors brugergrænseflade udmærker sig ved at være simpel og overskuelig, således at brugeren hurtigt og uden besvær kan fastlægge sit korpus repræsentativitet: 35/100

36 I den øverste valgmulighed Selección de los ficheros del CORPUS uploades korpusset i formatet.txt, hvis repræsentativitet ønskes analyseret af ReCor. Dernæst giver programmet brugeren mulighed for at uploade et såkaldt ordfilter Fichero de entrada (Filtro de palabras). Ordfiltret skal udgøres af en.txt-fil indeholdende alle de ord, som brugeren ønsker ekskluderet fra analysen, såsom f.eks. htmladresser, proprier osv. Der er her blevet uploadet et tomt.txt-dokument, eftersom korpustekstfilerne allerede blev renset i indsamlingsfasen. Til de sidste tre valgmuligheder skal der, ifølge privat korrespondance med Seghiri Domínguez, ligeledes blot uploades tomme.txt-dokumenter, hvori de respektive analyseresultater, som ReCor-programmet generer, vil blive gemt. Slutteligt kan brugeren i valgmuligheden Grupo de palabras angive, hvor store ordgrupper (ofte kaldt n-grams) der skal udføres statistiske analyser på og i Filtrar números, om tal skal filtreres fra. Programmet generer først et dokument benævnt Fichero de salida (Análisis estadístico), som indeholder en fortegnelse over analysedata fra to forskellige analyser. Det første afsnit indeholder resultater fra de alfabetisk ordnede filer, mens det næste viser resultater fra filerne i tilfældig rækkefølge. Hvert afsnit indeholder de fem følgende data: 1. Types 2. Tokens 3. Type/token-ratio 4. V1 (Hapax legomena) 5. V2 (Ord der forekommer to gange) 36/100

37 Det næste dokument programmet genererer, Fichero de salida (Palabras ord. alfab.), er inddelt i to spalter: 1. Ordtyper 2. Hyppighed Første spalte er en alfabetisk fortegnelse over alle ordtyper i korpusset, mens disses hyppighed angives i spalte nummer to. Det sidste dokument Fichero de salida (Palabras ord. frec.) er ligeledes inddelt i to spalter. Første spalte viser alle ordtyper indeholdt i korpusset arrangeret efter hyppighed, mens spalte nummer to angiver, hvor mange gange ordene forekommer. 9.1 ReCor: Spansk delkorpus Det spanske delkorpus uploades nu i ReCor, hvorefter programmet vil genere de omtalte grafer og dokumenter: 37/100

38 På trods af at graferne ganske tydeligt begynder at flade ud, tilføjes der flere tekster til det spanske delkorpus, da grafen ikke synes stabil nok ved 136 tekster. Ved udvidelse af korpusset vil det med større sikkerhed kunne fastsættes, hvornår korpusset kan betegnes som repræsentativt. Efter at have tilføjet yderligere 67 tekster ( tekstord) ser graferne ud som følger: Disse ændringer medfører selvfølgelig også ændringer i korpusspecifikationerne: 38/100

39 Spansk SEO-korpus (revideret) Størrelse Types: / Tokens: Antal tekster 203 Medium/Kanal Emne Teksttype Forfatter Sprog Publiceringsdato Kun skrevet materiale Søgemaskineoptimering SEO-produkt-/servicebeskrivelser fra spanske hjemmesider Samme virksomhed går ikke igen to gange Spansk Den nye graf placerer sig, som det kan ses, med en større grad af stabilitet på et punkt på y-aksen, hvorfor det spanske delkorpus ifølge N-Cor-algoritmen nu kan kaldes repræsentativt, dvs. efter 200 tekster/ tekstord. De tre genererede filer for det reviderede spanske SEO-korpus vedlægges pga. deres meget store omfang som bilag ReCor: Dansk delkorpus Ligesom det spanske uploades nu det danske delkorpus i ReCor med generering af grafer og dokumenter til følge: 39/100

40 Det danske SEO-korpus behøver ingen ændringer, da det kan betragtes som repræsentativt allerede efter 100 tekster/ tekstord. De tre genererede filer vedlægges som bilag Funktionsteori Via en deduktiv metode gives der i det følgende en kort, overordnet redegørelse for bevæggrunden bag udformningen af casens produkt - hovedsageligt ud fra funktionsteorien. Redegørelsen bliver kort og koncis, eftersom det trods alt er processerne på vej til - og ikke selve udformningen af produktet, der gives førsteprioritet i denne afhandling. Afsnittene skrives med afsæt i Leksikografien i grænselandet mellem viden og ikke-viden af leksikografen Tarp samt Manual i Fagleksikografi forfattet af Tarp og Bergenholtz. Funktionsteorien arbejder ud fra overbevisningen om, at en ordbogs leksikografiske funktion svarer til ordbogens bestræbelse på og evne til at give svar på det kompleks af behov, som opstår hos en bruger i en bestemt brugssituation (Tarp 2006:48). Funktionsteorien baserer sig på fire hovedelementer: tre ekstra-leksikografiske og et intra-leksikografisk. Førstnævnte udgøres af begreberne potentielle brugere, brugersituationer og brugerbehov. At de alle tre er ekstra-leksikografiske betyder, at de eksisterer og kan specificeres uafhængigt af faktisk ordbogsbrug, af hvilken grund alle også nødvendigvis skal afdækkes inden caseproduktets udformning. Det fjerde og såkaldte intra-leksikografiske element udgør det håndgribelige, formidlende element, der gør det muligt at forbinde det 40/100

41 ekstra-leksikografiske med det leksikografiske. Sagt kort er det fjerde element den konkrete assistance, som ordbøgerne kan yde for at dække de ekstra-leksikografiske behov (Tarp 2006:57) Potentielle brugere Udtrækning og udvælgelse af leksikografiske data, der skal adresseres til lemmaet, kan kun siges at have videnskabelig værdi, hvis både den potentielle bruger, dennes behov samt de sociale situationer, hvori brugerens behov opstår, er blevet taget i betragtning. Derfor gives nedenfor, som første skridt på vejen og jf. Tarps ni karakteristika der kan lægges til grund for en brugertypologi (Tarp 2006:68ff), en karakteristik af caseproduktets potentielle brugere. Karakteristikken hjælper med at fastlægge de leksikografiske data, som disse nødvendigvis skal have adgang til i caseproduktet for at få dækket deres behov: Casens korpusbrugere, som samtidig er uddannede oversættere inden for sprogkombinationen spansk-dansk, har dansk som modersmål, hvilket de behersker på højeste sproglige niveau. Oversætterne behersker ligeledes fremmedsproget spansk på et meget højt sprogligt niveau, men er på ingen af sprogene bekendt med faget SEO - ej heller fagsproget inden for samme tekniske område. Brugerne har i kraft af deres studier en solid oversættelseserfaring bag sig - samt indgående kendskab til brug af ordbøger og www som oversættelseshjælpemidler til at finde relevante sproglige og saglige data. Derudover har casens brugere læst om AntConcs funktioner samt arbejdet med programmet i praksis ved tidligere lejligheder. Oversætterens behov for faglig indsigt for at kunne oversætte en fagtekst er stadig genstand for megen diskussion. Nogle er nemlig af den mening, at fagtekster kun bør oversættes af eksperter inden for det pågældende område, eftersom det må være umuligt for oversætteren at tilegne sig tilstrækkelig ekspertviden. Som Faber Benítez pointerer, må der imidlertid være bred enighed om, at det er lettere at skaffe sig viden om et fagområde end viden om et sprog, da sidstnævnte indebærer en noget længere og mere kompliceret proces (Faber Benítez 2009:2) Brugersituationer I funktionsteorien flyttes fokus fra den generelle teoris behandling af ordbogsbrugssituationer til anvendelse af begrebet sociale situationer. Som sagt indledningsvist i afsnit 10 grunder dette i, at klassificeringen af brugere, situationer og behov i funktionsteorien ikke sker i henhold til en faktisk ordbogsbruger og dennes ordbogskonsultation, men i stedet i henhold til en potentiel bruger og de 41/100

42 sociale situationer, hvori denne indgår (Tarp 2006:53). De sociale situationer er svært definerbare og yderst forskelligartede, da de dækker over alle de situationer, hvor der i brugeren opstår et behov for ny viden. Der nævnes to overordnede ekstra-leksikografiske situationer, hvor ordbøger kan være behjælpelige: de kognitive og de kommunikative. Da der til en LSP-oversættelse inden for et ukendt fagområde både skal bruges fagterminologi og faglig viden, står casebrugeren over for både punktuelle og globale kognitive problemstillinger, da denne mangler såvel sproglig som saglig viden (Tarp 2006:60). En punktuel problemstilling fører altid til ordbogskonsultation, men er i casen yderligere forbundet med en global problemstilling, da en adækvat LSP-oversættelse jo fordrer saglig viden om et specifikt vidensområde. Casebrugeren befinder sig hermed i en kognitiv situation, der afføder både fagsproglige og fagspecifikke behov. Den anden ekstra-leksikografiske situation kaldes den kommunikative, fordi det her er deciderede problemer i forbindelse med kommunikationen i den kommunikative situation, der gør, at behovet for ordbogsopslag opstår. Ganske kort sagt er kommunikationssituationen i casen, som følger (Tarp 2006:61): - oversættelse af tekster fra modersmålet til fremmedsproget - oversættelse af tekster fra fremmedsproget til modersmålet 10.3 Brugerbehov En af Tarps nøglepointer er, at brugernes behov ikke opfattes som løsrevne og isolerede, men som nært knyttede til specifikke typer af potentielle brugere i specifikke typer situationer (Tarp 2006:57). Udsagnet kontrasterer med Wiegand, hvis teorier udsættes for megen diskussion i Tarps doktorafhandling, idet dennes teori tager udgangspunkt i de angivelige spørgsmål, som brugeren stiller til ordbogen, mens funktionsteorien tager udgangspunkt i de ekstra-leksikografiske behov, som brugeren har, før og uanset om de rent faktisk søger hjælp i en ordbog (Tarp 2006:56). Brugerne har ifølge Tarp ofte svært ved selv klart at definere deres behov, og denne manglende behovsbevidsthed medfører, at der i stedet for konkrete søgespørgsmål snarere er tale om datasøgning, hvor brugeren leder efter data, der kan dække vedkommendes mere eller mindre bevidst formulerede behov. Brugernes behov kan variere så meget og være så komplekse, at der skal bruges et helt sæt af varierede data til at tilfredsstille dem, hvilket bevirker, at leksikografiske data bør være selekteret og kombineret, så de dækker specifikke typer af brugerbehov (Tarp 2006:54). 42/100

43 Brugerbehov inddeles i primære og sekundære behov, der dækkes ved hhv. primære og sekundære leksikografiske data. De primære brugerbehov kaldes også de funktionsrelaterede behov, mens de sekundære også kendes som de brugsrelaterede behov (Tarp 2006:47). De primære brugerbehov er de behov, der udløser en ordbogssituation (Tarp 2006:71), og som altid opstår i en ekstra-leksikografisk brugersituation med karakter af et behov for informationer, der kan bruges til enten problemløsning eller vidensdannelse. De primære behov i casen udgøres af følgende informationskategorier opstillet af Tarp (Tarp 2006:71): - informationer om fagsproget på modersmålet - informationer om fagsproget på fremmedsproget - informationer om et bestemt fag eller en bestemt videnskab - komparative informationer om fagsproget inden for modersmål og fremmedsprog De sekundære behov udløses først, når de potentielle brugerne søger assistance i en ordbog og derved bliver til faktiske ordbogsbrugere med brug for sekundære data til at finde og fortolke de primære data, der kan tilfredsstille de primære behov (Tarp 2006:55). Der findes hele tre typer af sekundære behov. Første type relaterer sig til generel eller specifik ordbogsbrug, mens den anden type, som nævnt, omhandler brugerens behov for informationer til at kunne finde og bekræfte ønskede data. Slutteligt er der den tredje type af behov, som går på brugerens sproglige og fagspecifikke forudsætninger for f.eks. at kunne lave en god oversættelse (Tarp 2006:72). De sekundære behov er noget diffuse, hvilket nok er grunden til, at der ikke, ligesom ved de primære leksikografiske behov, er opstillet et egentligt skema. Opfyldelse af både de primære og sekundære behov skulle gerne give sig udslag i et brugervenligt ordbogskoncept. For at kunne tilfredsstille brugerbehovene er der optimalt set brug for en bilingval ordliste fra modersmål til fremmedsprog og fra fremmedsprog til modersmål (Tarp 2006:79), men caseproduktets autentiske natur taget i betragtning vil den bilingvale dimension få sine naturlige begrænsninger. Produktet vil næppe kunne betegnes som et decideret bilingvalt opslagsværk, men brugen af to sammenlignelige delkorpora til udtrækning af fagsproglige og fagspecifikke data har ubestrideligt medført en bilingval dimension til brug i LSP-oversættelser. Caseproduktets format afviger bemærkelsesværdigt meget fra det format, der ville ventes af en bilingval ordbog, fordi en af korpussets nøglefunktioner jo netop er at afhjælpe de konventionelle redskabers mangel på autenticitet i form af oplysninger om kollokationer, saglig viden, eksempler på sprogbrug m.m. Eventuelle oversættelser af synonymer eller kollokationer ville kontrastere med korporaenes hjælp til oversættelse i form af strukturerede autentiske data. 43/100

44 Caseproduktets primære og sekundære behov er fastsat ud fra de tre forudgående afsnit og med base i Tarps skemaer side (Tarp 2006:185ff) omhandlende oversættelse til og fra fremmedsproget. Der vil være mange overlap grundet de sekundære datas alsidige funktioner: Primære brugerbehov: Informationer om: L1 lemma - betydning af L1 lemma - L2 ækvivalenter - L1 ordklasse - L1 genus - L1 ortografi - L1 pragmatiske og kulturelle restriktioner - L1 fleksion - L1 kollokationer - L1 synonymer, hyponymer L2 lemma - betydning af L2 lemma - L1 ækvivalenter - L2 ordklasse - L2 genus - L2 ortografi - L2 pragmatiske og kulturelle restriktioner - L2 fleksion - L2 kollokationer L2 synonymer, hyponymer Sekundære brugerbehov: Informationer om: L1 lemma - sammensætninger som lemmata - ortografi - ordklasse - genus - betydning af L1 lemma L2 lemma - sammensætninger som lemmata - ortografi - ordklasse - genus - betydning af L2 lemma 44/100

45 I det endelige produkt vil der være to ekstra informationer at finde, nemlig bemærkninger, der på adækvat og overskuelig vis giver plads til angivelse af uoverensstemmende, uventede eller særligt bemærkelsesværdige observationer fra korpusset eller de konventionelle redskaber. En anden ekstra information kilder er ligeledes blevet tilføjet for at holde korpussets kernekompetence, autenticitet, i hævd. For at overskueliggøre de indtil nu nævnte data bringes hermed en figur fra Tarps doktorafhandling, der viser den kausale relation mellem bruger- og situationsbetingede behov, data, information og tilfredsstillelse af behov i henhold til funktionsteorien (Tarp 2006:101): 10.5 Lagring af leksikografiske data Sidste kasse i ovennævnte figur er det sted, hvor den fagsproglige og fagspecifikke assistance bliver formidlet i form af de primære og sekundære data. Casens produkt bliver ti såkaldte elektroniske termark med både fagsproglige og fagspecifikke oplysninger om to ækvivalenter på hvert ark, en på spansk og en på dansk. Hvorfor valget faldt på termark, i stedet for så mange andre mulige leksikografiske udformninger, kan opsummeres kort med følgende punkter fra Fordeling af Informationer og Selektion af Henvisninger i en Fagsproglig Internetordbog (Duvå/Laursen 2005a:93) omhandlende overordnede kvalitetskrav til indholdet i - og udformningen af en fagsproglig internetordbog, som der bestemt kan argumenteres for, at afhandlingens termark opfylder: 1. Overskuelighed (ordbogskonceptet giver et hurtigt overblik) 2. Forudsigelighed (brugeren får de informationer, han forventer) 45/100

46 3. Pålidelighed (korrekt og opdateret information) 4. Tilstrækkelighed (der er nok data til brugeren til at kunne lave en tilfredsstillende oversættelse) Ad 1. Opfyldt via termarkenes konsistente og logiske opdeling i felter Ad 2. Opfyldt via typebestemmelse af casens brugere, situationer og behov med afsæt i funktionsteorien Ad 3. Opfyldt vis designkriterierne Ad 4. Opfyldt via ReCor samt funktionsteorien Det typiske termark behandler et enkelt begreb og indeholder lingvistiske og ekstra-lingvistiske data om dette begreb på et eller flere sprog. Det er op til oversætterne selv at bestemme den konkrete udformning af termarket, da der ikke findes faste regler herfor. Udformningen kan fastlægges på baggrund af faktorer som brugertype, materialetilgængelighed og formål med resultaterne af de sproglige undersøgelser. Det eneste overordnede krav er, at der skal inkluderes data og kommentarer, der kan hjælpe oversætterne til at bruge det angivne lemma korrekt i en målsprogskontekst (Somers 2003:51) Makrostruktur I Manual i Fagleksikografi fastlægges de forskellige makro- og mikrostrukturer, der kan danne ramme om fagordbøger i papirform. I korte træk skriver forfatterne, at en ordbogs makrostruktur, dvs. de respektive artiklers indbyrdes forhold til hinanden, kan være enten alfabetisk eller systematisk, mens en mikrostruktur udtrykker, hvorledes data adresseret til den enkelte artikels lemma er struktureret i forhold til hinanden (Bergenholtz/Tarp 1994:11). I modsætning til ordbøger i papirform, hvis leksikografiske data altså udvælges og struktureres i henhold til allerede fastsatte rammer, tilbyder de elektroniske opslagsværker imidlertid "a much wider set of possibilities within which no obvious pattern seems to have been established" (Duvå/Laursen 2005b:337). I stedet for deciderede makrostrukturer indeholdende permanent strukturerede data taler de to kvindelige forfattere om de elektroniske ordbøgers fleksible og åbne strukturer med mulighed for at modificere indholdet. (Duvå/Laursen 2005b:347). De konciperes ikke i henhold til faste strukturer, men kan i stedet snarere betegnes som uforudsigelige og heterogene (Duvå/Laursen 2005b:339). Caseproduktet er tiltænkt som et elektronisk opslagsværk med integreret søgefunktion, der gør det nemt og hurtigt at navigere rundt i selv de mest omfattende opslagsværker, så det eneste der i forbindelse med caseproduktet skal siges om den overordnede struktur er, at de respektive termark - 46/100

47 for at modvirke visuelt støj - på et tænkt website ville blive struktureret alfabetisk i henhold til det spanske lemma. Der vil blive adresseret forholdsvist store mængder fagsproglige og fagspecifikke oplysninger til hvert enkelt lemma, hvorfor der i hvert termark kun vil blive behandlet en spansk og en dansk ækvivalent. Det betyder her, at der tages udgangspunkt i det glatalfabetiske princip. Det nichealfabetiske princip, der indeholder grupper af lemmata samlet i et antal nicheartikler indledt af samme nichelemma, ville være umuligt at anvende i casens tilfælde, da fokus ligger på at give udtømmende oplysninger om hvert enkelt lemma (Bergenholtz/Tarp 1994:209) Mikrostruktur I dette afsnit redegøres der for de enkelte termarkfelters indhold og struktur og afsluttes med termarkskabelonens fysiske udformning. Som led i en overskuelig og konsistent mikrostruktur forbliver termarkskabelonen uforandret på alle tidspunkter, af hvilken grund ikke alle felter altid vil kunne udfyldes. Formidlingssproget i produktet er dansk, da brugerne er danske, og vil komme eksplicit til udtryk i felterne grammatik, bemærkninger og oprettet, da de øvrige felter kun vil indeholde autentiske leksikografiske data. Term Det spanske og danske lemma i hvert termark er ækvivalenter, hvilket vil sige, at der er sammenfald mellem de respektive termers begrebsindhold. Når de to termer fra dansk og spansk betegner nøjagtig det samme begreb, foreligger der terminologisk ækvivalens (Poulsen 2003:10). En term kan defineres som udtrykssiden af et begreb inden for et bestemt fagområde, og dets funktion er at kommunikere et fagligt begrebs indhold (Weilgaard Christensen 1995:91). De faglige oplysninger i videnskabelige og tekniske tekster ligger implicit i de fagspecifikke termer, der kan betragtes som en slags adgange til mere komplekse vidensstrukturer. Det er denne områdespecifikke viden, der gør, at det overhovedet kan lade sig gøre at anvende termerne (Faber Benítez 2009:2). Det ideelle scenarie er, at et begreb har en præcis definition inden for et bestemt fagområde og kun en tilhørende term. Reelt er dette dog sjældent tilfældet, da der er færre termer til rådighed, end der er begreber (Weilgaard Christensen 1995:44). Et repræsentativt specialiseret korpus reducerer dog betydeligt graden af polysemi og homonymi, eftersom alle ordene er taget ud af samme faglige kontekst, og altså i langt de fleste tilfælde hver især burde have det samme betydningsindhold. Lingvisterne vil måske indvende, at sprogbrugen og terminologien inden for visse fagområder ikke nødvendigvis altid er korrekt set med lingvistiske briller, især ikke hvis der bruges engelske importe- 47/100

48 rede ord i ikke-engelsktalende lande. Sprogkyndige har derfor i deres oversættelsesarbejde ofte lyst til at indføre en mere målsprogstilpasset og sproglig korrekt ækvivalent end den, eksperterne benytter sig af. Denne handling kan imidlertid være særdeles svær at forsvare, hvis brugen af den ukorrekte term allerede er grundigt cementeret i den fagspecifikke sprogbrug. Korpora kan her bruges til at give et fingerpeg om, hvilke importerede ord der er mere acceptable end andre. Lemmataene i termarkene udvælges på baggrund af en keywordliste genereret i AntConc, hvorfor overbegreber også kan forekomme som lemmata. Dette er imidlertid underordnet, eftersom den elektroniske søgefunktion vil bevirke, at de søgte data vil kunne findes, hvor end de måtte befinde sig i termarket. Det vigtigste er for så vidt, at de leksikografiske data, som brugeren har behov for, er til stede et eller andet sted i artiklen det være sig i feltet term eller synonymer. Lemmaet kan som en selvfølge bruges på alle kollokationer, der angives i det termark, det indgår i. Grammatik I dette felt angives kun den helt basale grammatik, dvs. ordklasse, genus og fleksionsformer. Ordklassen angives umiddelbart efter lemmataene efterfulgt af genus. Ved substantiver der kan bøjes, angives den fulde udskrivning af bestemt form singularis, ubestemt form pluralis og bestemt form pluralis. Disse oplysninger adresseres både termer og synonymer. Substantiver, der ikke danner pluralis, er angivet med oplysning om, hvordan bestemt form singularis skrives. Hvis bestemt form singularis heller ikke dannes, angives kun ordets genus. Nogle substantiver, især af fremmed oprindelse, kan ikke bøjes i bestemt form. I så fald angives genus artikel efterfulgt af ubestemt form pluralis. Faglig forklaring Det hænder, at oversætteren finder perfekt formulerede definitioner eller forklaringer i korpusmaterialet, men oftest bliver definitionen stykket sammen af formuleringer og allerede eksisterende definitioner fra forskellige steder i korpusset og/eller vha. ordbøger, gloselister, webbet o.l. Efter at have sammensat en sådan forklaring vil det allerbedste være at få den bekræftet eller tilpasset hos en fagkyndig. For at kunne systematisere, beskrive, benævne og endelig anvende begrebet, er det en forudsætning, at man kender begrebernes indhold, og da det i terminologien udelukkende drejer sig om faglige begreber, er det logisk, at man må have eller skaffe sig faglig viden for at kunne bearbejde en terminologi og anvende den korrekt i den faglige kommunikation det gælder i højeste grad også oversætteren! (Weilgaard Christensen 1995:37) 48/100

49 Casens specialiserede korpora kan langt hen ad vejen godt bruges til at formulere definitioner, idet de kompilerede korpusteksters kommunikationssituation er af typen fagmand halv-fagmand eller fagmand lægmand og derfor må forventes at indeholde visse termforklaringer og uddybninger. Ifølge Weilgaard Christensen bør følgende fem retningslinjer haves in mente ved udarbejdelsen af en faglig forklaring: 1: Den skal være dækkende. 2: Den skal være på et for modtageren passende niveau. 3: Den skal være entydig og letforståelig. 4: Den skal være enkel og klar i opbygningen. 5: Faglige forklaringer i samme faglige systematik skal være indbyrdes afstemte og altså ikke modsigende (Weilgaard Christensen 1995:57). De faglige forklaringer i termarket optræder på deres originalsprog og er autentiske. Deres primære funktion er at føre bevis for, at de to ækvivalenter angivet i samme termark betyder det samme. Hvis betydningsindholdene ækvivalerer, så er termerne, som allerede nævnt flere gange, nemlig også ækvivalenter. Deres sekundære funktion er at give adgang til autentiske eksempler på sprogbrug - frem for konstruerede. Hvis nogle af lemmataene i termarkene har flere betydningsindhold, dvs. hvis de er polyseme, udarbejdes der naturligvis tilsvarende flere fagliges forklaringer. De faglige forklaringer angivet i de respektive termark ækvivalerer indholdsmæssigt, omend ikke ordret da de jo er udtrukket fra autentiske tekster. Synonym Et synonym er en betegnelse for et ord med samme eller næsten samme betydningsindhold som et andet ord på samme sprog (Weilgaard Christensen 1995:48). I termarkene præsenteres synonymerne via den initialalfabetiske præsentationsform, dvs. der alfabetiseres fra venstre mod højre, og det sker i henhold til ord-for-ord-metoden. Ved denne metode tæller blanktegn med som et tegn, der begynder før alfabetets første bogstav. Ord-for-ord-metoden betyder, at alle flerordslemmata som begynder med samme ord, og som indgår i identiske betydningsforhold, placeres efter hinanden, uden at denne rækkefølge brydes af et eller flere lemmata med helt andre betydninger (Bergenholtz/Tarp 1994:208). Bergenholtz og Tarp omtaler egentlig struktu- 49/100

50 ren i forbindelse med kategorien alfabetiske makrostrukturer, men makrostrukturen benyttes i dette felt som mikrostruktur, grundet forventninger om til tider mange synonymer til samme lemma. Også flerordstermer kan i termarkene figurere som synonymer, hvis de via nærlæsning i delkorporaene kan identificeres som værende ækvivalenter til det pågældende lemma (Bergenholtz/Tarp 1994:119). Optræder en flerordsterm i pluralis i kollokationsfeltet angives pluralisformen med tilde ~ efterfulgt af endelsen på flerordstermens kerne. Det ville være at foretrække, at de fundne synonymer blev ført ind i det færdige produkt efter faldende hyppighed, for på den måde at undgå at vælge et knapt så hyppigt brugt ord til en oversættelse inden for et ukendt fagområde. Opstilling efter hyppighed er imidlertid noget af en tidsrøver, fordi antallet af forekomster af f.eks. den enkeltstående term página ikke vil kunne opgøres automatisk. Página er jo også at finde i komposita, f.eks. página web. Samme situation ville udspille sig i forbindelse med sitio, der også findes i sitio web; posicionamiento SEO ville udgøre en del af en anden flerordsterm, nemlig posicionamiento SEO web og så fremdeles. Endelig kan der føres det argument, at den hyppigst brugte ækvivalent oftest er det angivne lemma. Hvis det angivne lemma er polysemt, vil der være angivet flere faglige forklaringer, af hvilken årsag der vil være angivet tilsvarende flere kategorier af synonymer, der modsvarer de respektive betydningsindhold. Forkortelse Hvis der foreligger et akronym for en term, medtages det i dette felt. Et akronym kaldes også en initialforkortelse og betegner ord dannet af begyndelsesbogstaverne fra flere ord eller orddele. En forkortelse er altså ikke et akronym, hvis den indeholder forstavelser og/eller forkortelsespunktummer. 8 Kollokationer Kollokationer er alfa og omega, når oversætteren skal have hjælp til at finde ud af, hvordan en ækvivalent anvendes korrekt. End ikke fuldstændigt korrekte termer er meget værd, hvis ikke oversætteren ved, hvordan de bruges i en kontekst. Putting a word in context means breathing life into it. Taking a word out of context is like stuffing an animal. If you want to know something about animals you may learn a lot from looking at a stuffed specimen. You may even learn more by dissecting it, but if /100

51 you want to know about the behavior of animals you must study them in their natural environment. If you want to know how words behave you must study them in their natural environment too, and the natural environment of words is text, context (Bowker 1998:4). Mange teoretikere beskriver en kollokation, som words that co-occur more often than expected by chance (Lager 1995:7). Det er en forbindelse af ord, der hyppigt optræder samtidigt inden for en kort afstand af hinanden. Ethvert ord i en kollokation kan alt efter kontekst opfattes som basis; hermed menes det ord, der fremstår mere centralt end andre i kollokationen. Følgelig kan ethvert af ordene alt efter kontekst ligeledes betragtes som kollokater. Kollokaterne findes typisk inden for et vindue på maks. 4-5 ord til venstre eller højre for basis (Lauder 2010:6). Basis og kollokat(er) udgør tilsammen kollokationens led, men en kollokation kan også indeholde småord som f.eks. præpositioner (Vigh 2010:25). Hyppig samtidig forekomst er imidlertid ikke tilstrækkeligt bevis på, at der er tale om en kollokation, idet visse ord slet og ret optræder oftere end andre, som f.eks. de nævnte præpositioner og konjunktioner. Det gør dem imidlertid ikke til kollokater i en lang række kollokationer (Lauder 2010:7). Ifølge Lauder kan ord, der optræder hyppigt samtidigt, kun kaldes en kollokation, forudsat at de inkluderede ord udviser to former for forbindelse til hinanden, nemlig gensidig forventning og semantisk forbindelse. Den gensidige forventning skal forstås på en sådan måde, at hvis f.eks. ordet palabra optræder i en SEO-kontekst, så forventes búsqueda og clave også at forekomme i nærheden af ordet. De kollokater som basis forventes at blive forbundet med er relative og varierer i henhold til tekstgenren (Lauder 2010:6). Den nævnte semantiske forbindelse skal være at finde mellem basis og kollokat(er) samt blandt kollokaterne selv, idet et ords mening både reflekteres i og udgøres af dets kontekst (Lauder 2010:8). Hvis oversætteren er i stand til at kategorisere et leksikalsk sæt af kollokater inden for f.eks. størrelse, bevægelse, farve etc., kan det antages, at denne kategori også eksisterer for basis på målsproget, hvorfor der kan søges på oversættelser af kollokaterne på kildesproget, hvis nu der ikke umiddelbart kan findes en oversættelse af basis (Lauder 2010:10). Casens absolut primære kilde til udtrækning af kollokationer udgøres af de specialiserede korpora. Via AntConc-funktionerne collocates, clusters og concordance findes der frem til kollokater på begge sprog. Kollokaterne der inkluderes i termarket skal kunne bruges på alle synonymer angivet i samme kategori. Kollokationerne udtrækkes på deres originalsprog og inkluderes derfor ligeledes i termarket på originalsproget for at fastholde autenticiteten. Caseproduktet henvender sig netop til den bega- 51/100

52 vede LSP-oversætter med flair for datasøgning og et højt sprogligt niveau, så med baggrund i disse egenskaber, og ud fra de snarligt kommende udtrækningsstrategier, forventes denne at kunne finde oversættelser af kollokationerne ved selv at sammenligne kollokationernes kontekster i delkorporaene - samt ved hjælp af de konventionelle oversættelsesredskaber. Hvis ikke de fundne kollokationer kan bruges på alle synonymerne, inddeles synonymer og kollokationer i kategorier, der matcher hinanden. Inddelingen i kategorier indikerer altså i dette tilfælde ikke betydningsforskel. Der foreligger kun betydningsforskel, hvis der er angivet flere end en faglig forklaring. Med Duvå og Laursens punktopstilling vedrørende kvalitetskrav til internetordbøger in mente inddeles kollokationsfeltet i verber/adjektiver til højre for den pågældende ækvivalent, verber/adjektiver til venstre for den pågældende ækvivalent, substantiver til højre for den pågældende ækvivalent og substantiver til venstre for den pågældende ækvivalent for at optimere overskueligheden og dermed også den effektive brug af caseproduktet. Basis i kollokationerne angives konsekvent med tilde ~, da konsistens samtidig er med til at give overblik. Fuld udskrivning af basis i alle kollokationer ville gå ud over brugervenligheden, overskueligheden og effektiviteten i brugen af produktet og ville uundgåeligt resultere i et rodet og svært gennemskueligt opslagsværk. Efter tilden angives de respektive basisords fleksionsendelser, så de passer direkte ind i kollokationen, mens det i det spanske kollokationsfelt til tider også kan være nødvendigt før tilden at angive to forskellige genusformer, hvis kollokationen kan bruges sammen med synonymer med forskelligt genus. Bemærkninger Bemærkningerne vil, som antydet, omhandle påfaldende, modstridende eller afvigende oplysninger i korporaene sammenholdt med de konventionelle oversættelsesredskaber og vice versa. Termarkskabelon Ud fra brugernes afdækkede behov i afsnit 10 samt den netop beskrevne mikrostruktur er termarkskabelonen blevet designet som illustreret nedenfor. Skabelonen er stærkt inspireret af skemaet i Working with Specialized Language (Bowker/Pearson 2002:163) samt skemaet i Introducing Corpora in Translation Studies (Olohan 2004:179): 52/100

53 Fagområde Term Grammatik Faglig forklaring Synonymer Forkortelse Korpusbaserede kollokationer - Verber/Adjektiver (L) Korpusbaserede kollokationer - Verber/Adjektiver (R) Korpusbaserede kollokationer - Substantiver (L) Korpusbaserede kollokationer - Substantiver (R) Kilde(r) Bemærkninger Oprettet Spansk Dansk 11 Keywordliste Med udgangspunkt i to nu repræsentative specialiserede korpora (udregnet via ReCor-programmet), der både er pålidelige og af stor relevans for formålet med caseanalyserne (sikret via designkriterierne), følger i dette afsnit keywordanalysen i AntConc, via hvilken der skal findes ti nøgletermer inden for fagområdet søgemaskineoptimering til brug i casen. Første led i processen er at generere keywords for det spanske SEO-korpus, hvilket gøres på følgende vis: 1) Upload spansk SEO-korpus i AntConc: File Open Dir spansk SEO-korpus 2) Upload spansk referencekorpus i AntConc: Tool Preferences Category Keyword List Reference Corpus Options Add Directory Spansk referencekorpus Apply 3) Generering af keywords: Keyword List Flueben i Words Tryk Start 4) Programmet generer nu en ordliste og sekunder senere en keywordliste: 53/100

54 (Word List efter frekvens) (Keyword List efter frekvens) Til caseanalyserne vil der udelukkende blive anvendt AntConc-data. Et udsnit af keywordlisten fra ReCor-dokumentet Fichero de salida (Palabra ord. frec.) vil i det følgende blive sammenlignet med et udsnit af keywordlisten genereret i AntConc, så det vil stå klart hvorfor. Begge keywordlister er opstillet efter frekvens - startende med det hyppigst forekommende ord (tallet er lig antal forekomster): ReCor: de en 5931 que 4564 la 4341 y 4317 los 4123 el 3751 web 3321 para 2947 a 2813 las 2138 un 2105 buscadores 2075 es 1908 su 1847 una 1713 posicionamiento 1655 por 1472 seo 1429 con 1400 se 1392 del 1293 o 1127 sitio 1080 página 1071 no 1065 más 1059 búsqueda 888 como 869 palabras 826 resultados 815 google 809 optimización 773 tu 757 enlaces 750 páginas 725 lo 683 clave si 575 son 546 al 540 internet 487 sus 485 motores 471 contenido /100

55 AntConc: Ved sammenligning af de to lister springer de mange funktionsord, dvs. hjælpeverber, modalverber, pronominer, præpositioner, artikler og konjunktioner 9, straks i øjnene på ReCor-keywordlisten, eftersom programmet ikke giver mulighed for at lave en stopordsliste, men derimod kun for at lave et decideret ordfilter. Brugen af sidstnævnte ville dog fjerne de angivne ord fra samtlige analyser - ikke kun keywordlisten. Eftersom det genererede dokument Fichero de salida (Palabra ord. frec.) indeholder de hyppigst forekommende ord i det spanske SEO-korpus, vil disse generelt hyppigst forekommende funktionsord altså figurere øverst på listen, selvom de ikke er kendetegnende for SEOsprogbrug. Konsulterer oversætteren i stedet AntConcs keywordliste, vil mængden af funktionsord være væsentligt reduceret, eftersom ordene i toppen af keywordlisten udgøres af ord, der optræder usædvanligt hyppigt i SEO-korpusset i forhold til i referencekorpusset. Keywordlisten genereret i AntConc er uden tvivl mest brugbar, samtidig med at ordene kan underkastes yderligere sproglige analyser i selvsamme program. 9 VuvNUC&pg=PA23&lpg=PA23&dq=funktionsord+%22modalverber,+pronominer,+pr%C3%A6position er%22&source=bl&ots=lglmlm3dxn&sig=eebmzdrila1bpxclrej1sofx86a&hl=da&ei=on4vtsj1ljgjgagpegjba&sa=x&oi=book_result&ct=result&resnum=1&ved=0cbyq6aewaa#v=snippet&q=hj%c3 %A6lpeverber&f=false, p /100

56 Problemet er nu, at de ti mest hyppige forekomster heller ikke på keywordlisten genereret i AntConc udelukkende omfatter ord, der er kendetegnende for SEO. En måde at undgå uvedkommende ord på er ved at gøre brug af den nævnte stopordsfunktion, som i AntConc findes her: Tool preferences Category Word List Word List Range Options Use a stoplist listed below Korpusbrugeren har med dette værktøj mulighed for at indtaste enkelte stopord eller uploade en fil indeholdende alle de ønskede stopord. Stopord er ord, der ikke er kendetegnende for den type sprog, der skal undersøges - såsom de nævnte funktionsord 10. En stopordsliste indeholder følgelig alle de ord, som brugeren ønsker at ekskludere fra analyserne og benyttes især, når formålet med analyserne er udtrækning af leksikalske ord (Bowker/Pearson 2001:113). Så længe AntConcs keywordfunktion kun er i stand til at generere 1-grams, kan omhyggeligt udarbejdede stopordslister rense ordog keywordlister betydeligt. I AntConc indvirker stopordsfunktionen nemlig kun på ordog keywordlister, af hvilken grund søgninger i concordance, clusters osv. vil være de samme, uanset om stopordsfunktionen er taget i brug eller ej. Bruges i stedet korpusanalyseværktøjer, der er i stand til at generere keywordlister bestående af flerordstermer (2-grams, 3-grams etc.), er det klart, at funktionen i nogle tilfælde vil spænde ben for sig selv og få oversætteren til at overse vigtige flerordstermer, som ville have optrådt med et ekskluderet ord. Stopordslister anbefales uden tvivl, men i en så overskuelig case som den nærværende, er det blevet vurderet, at keywordlisterne selv uden brug af stopord indeholder tilstrækkelige, relevante ord til at kunne udtrække ti nøgletermer inden for SEO. Keywordudtrækning og korpusanalyser generelt må altså ikke foregå fuldautomatisk, dvs. udelukkende ved brug af software og uden efterfølgende redigering, men skal derimod kombineres med manuel analyse og menneskelig tankeaktivitet. Problemstillingen, vedrørende hvorvidt et ord er SEOrelateret eller ej, kan afklares ved, at oversætteren selv kigger keywordlisten igennem og foretager konkordanssøgninger på tilsyneladende relevante fagspecifikke indholdsord (modsat funktionsord). Caseproduktet skal kun indeholde ti nøgletermer, men der udtrækkes i første omgang tyve, da flere af ordene på listen enten er de samme (kun ordformerne til forskel), eller også adskiller de sig kun ved brugen af minuskler eller majuskler. Endnu en vigtig årsag til at inkludere flere termer end umiddelbart nødvendigt er, at nogle af termerne kan forventes at indgå i de samme flerordstermer. Det er 10 Det er muligt at tilgå allerede udarbejdede stopordslister på flere sprog på websitet (dog ikke på dansk). 56/100

57 vel at mærke kun ordene, der skrives ned - og ikke de enkeltstående bogstaver, der ellers også figurerer på keywordlisten. Der tages udgangspunkt i det spanske specialkorpus, men det kunne lige så godt have været det danske, da det naturlige ville være at sammenligne alle de indsamlede nøgleord med nøgleordene genereret på det modsatte sprog efterfølgende for således at kunne supplere med eventuelle termer. Keywordlisten over de tyve hyppigst forekommende termer i det spanske SEOkorpus er dermed som følger: web buscadores SEO posicionamiento sitio página Google búsqueda enlaces páginas clave optimización Web palabras resultados Posicionamiento tu motores Optimización Search Med de ti potentielle nøgleord til casen på hånden er det passende i det kommende afsnit at forklare, hvordan udtrækning af leksikografiske data fungerer i teorien, og siden hvordan den egentlige udtrækning af lemmata og tilhørende leksikografiske data, der skal inkluderes i termarkene, foregår i praksis. 12 Udtrækning af leksikografiske data Inden for korpuslingvistik gøres der skel mellem at anlægge en korpusbaseret ( corpus-based) og en korpusdreven ( corpus-driven) tilgang til sproglige undersøgelser. Den korpusbaserede tilgang refererer til en metodik, som hovedsageligt bruger korpusset til at forklare, teste eller eksemplificere 57/100

58 allerede eksisterende teorier og forklaringer. Korpusset kan hermed siges at blive brugt som bevismateriale, dvs. bevis på kendt sprogbrug (Corpas Pastor 2001:50). I den korpusdrevne tilgang the theoretical statements are fully consistent with and reflect directly, the evidence provided by the corpus (Tognini-Bonelli 2001:84). Her behandles korpusset altså som mere end blot et lager af eksempler, der kan understøtte allerede kendte teorier eller systemer. Eksemplerne bruges ofte ordret, og tilbagevendende mønstre kan danne grundlag for nye hypoteser og måske nye generaliseringer (Corpas Pastor 2001:54). Forskellen mellem de to er imidlertid efterhånden blevet så flydende, at det kan være svært at skelne, i hvilke tilfælde der bruges den ene eller anden slags. Derfor har bl.a. McEnery foreslået termen korpusbaseret, som værende dækkende for begge tilgange (Corpas Pastor 2001:55). Det noget flydende skel hænger sammen med, at korpusbrugerne har fået en mere holistisk tilgang til sprog, idet det skriftlige har afsæt i det mundtligt sagte som igen har et vist afsæt i det skriftlige, hvorfor det kan være nødvendigt at anvende begge beskrevne tilgange i forbindelse med korpuslingvistiske undersøgelser. Skulle der efter diverse korpus-, ordbogs- og websøgninger foreligge modstridende eller mangelfulde leksikografiske data, kan der evt. sparres med en ekspert inden for fagområdet. Eksperten kan være en god ressource i forbindelse med be- eller afkræftelse af et givent termvalg eller en given faglig forklaring, men vil i de færreste tilfælde være i stand til at assistere med tilstrækkelig kompetence på andre sprog end sit modersmål. Trods sin store faglige indsigt er eksperten kun en person med en persons viden og mening, hvilket vil bringe det ellers objektive datagrundlag i ubalance. Det vil kun vanskeligt kunne efterprøves, om et ekspertsvar er udtømmende og korrekt. Eksperten er jo typisk ansat i en virksomhed med en bestemt sprogbrug og med præference for bestemte fagtermer, selvom nogle lige så rigtige ækvivalenter sikkert bruges i en anden virksomhed inden for samme fagområde. Af den grund må der kunne argumenteres for, at termvalg så vidt muligt bør foretages på baggrund af objektive, empiriske data, dvs. ikke med et subjektivt, induktivt udgangspunkt Strategier til udtrækning af ækvivalenter Det virker måske ikke umiddelbart muligt at kunne finde oversættelsesækvivalenter via et sammenligneligt - ikke parallelt - korpus bestående af to monolingvale delkorpora, men faktisk kan der findes frem til ækvivalenter via op til flere søgemetoder i kraft af teksternes fælles karakteristika, såsom den tidligere nævnte emnemæssige og til en vis grad funktionelle lighed. Nedenstående liste indeholder fire hyppigt brugte strategier: 58/100

59 1) Trial and Error Metoden går ud på via konkordanssøgninger at verificere eller falsificere en kvalificeret antagelse af, hvad oversættelsesækvivalenten på målsproget kan være. Folk har generelt tendens til at lægge mere mærke til typisk forekommende sprogbrug end atypisk brug, hvorfor intuitioner altid skal efterprøves - specielt i fagspecifik sprogbrug (Biber 2006:3). 2) Klyngestrategi I denne strategi tages der udgangspunkt i et ordvindue på kildesproget indeholdende den eller de termer, til hvilke(t) det ikke er lykkedes at finde en oversættelsesækvivalent. Der identificeres et mindre antal ord inden for ordvinduet, hvis ækvivalenter allerede kendes eller kan findes på målsproget. Ved hjælp af en klynge af disse målsprogsækvivalenter, foretages der søgninger på sammenlignelige ordvinduer på målsproget (Selsøe Sørensen 2002:7). Denne fremgangsmåde har sit udspring i Harris' distributional hypotese, der lyder, at ord, som optræder i samme syntaktiske kontekst, har lignende semantisk betydning (i Westh/Bohr-Halling 2008:41). 3) Ortografisk lighed Endnu en mulighed kunne være simpelthen at prøve at søge på målsprogstermen, præcis som den står skrevet på kildesproget. Denne metode er specielt anvendelig, når der er tale om ord importeret fra engelsk. 4) Tilfældighed I søgningen på en term, et kollokat e.l. hænder det ofte, at oversætteren falder over en helt anden term eller formulering end den tiltænkte, som kan hjælpe vedkommende videre i en anden henseende. 13 Udtrækning af leksikografiske data til caseproduktet I det næstfølgende afsnit redegøres der for fremgangsmåden bag udtrækningen af de data, der skal adresseres til de fire førstkommende nøgletermer på den spanske keywordliste: web, buscadores, SEO og posicionamiento. Dataene søges udtrukket med udgangspunkt i korpusdataene, men også vha. online ordbøger, søgemaskinen Google samt SEO-ekspert siden 1998, Jens Peter Nielsen fra Dynamicweb Internet Marketing ApS. Hver af de fire fremgangsmetoder afsluttes med et udfyldt 59/100

60 termark, mens dataene, der skal adresseres til de resterende seks lemmata, som udtrækkes fra den genererede keywordliste, blot fyldes ind i termarkene uden eksplicit at beskrive arbejdsgangen bag. Fremgangsmåderne inddeles i fire vejledende faser: grammatik, faglig forklaring, synonymer og kollokationer, der alle kan byttes rundt, som det vil bemærkes, i henhold til, hvad der virker mest logisk i den enkelte korpusbrugers situation. I visse situationer kan det være nødvendigt med en form for opmærkning, hvis ikke termens ordklasse fremtræder tydeligt, ligesom det af og til kan være nødvendigt at lemmatisere en term fundet på keywordlisten, hvis denne ikke optræder i sin kanoniske form. Ligeledes kan det være nødvendigt at undersøge en term for polysemi/homonymi, hvis fænomenet synes at fremtræde i konkordanssøgningerne web spanske data 1. fase: faglig forklaring inkl. opmærkning og afklaring af polysemi Ud fra en korpusdreven tilgang undersøges det via AntConcs concordance-funktion, hvorvidt web bruges som enordsterm i SEO-sammenhæng, da umiddelbare konkordanssøgninger genererer flertydige svar, ligesom web heller ikke ortografisk klart indikerer ordklasse. Der indtastes følgende søgestrenge: un web, una web, el web, la web, tu web, su web. Søgningerne afføder en masse KWIC-konkordanslinjer, der verificerer brugen af web som substantiv og som enordsterm: Es una inmejorable oportunidad para escoger qué es lo que van a ver acerca de tu web los usuarios de los buscadores, y una herramienta para incitarlos a entrar en tu web. Obtén todos los enlaces que puedas hacia tu web desde otras webs, y si es posible, asegúrate de que en el texto de los enlaces se incluyen tus palabras clave más importantes. Análisis de la web: Una vez establecidos los objetivos del cliente se procede a revisar la página web para detectar cualquier elemento en su definición y contenido que estén afectando a la efectiva indexación por parte de los buscadores. Verificamos la concordancia entre el título, la descripción y las cadenas clave de su sitio web. Estos factores son los más influyentes a la hora de que Google establezca el nivel de relevancia de su web respecto a las cadenas de búsqueda. Estas buscando una solución completa y sencilla de usar para la optimización de tu website a la hora de ser aceptado por los motores de búsqeuda (SEO)?. Ese Servicio de Optimización para Motores de Busqueda(SEO) te permitirá obtener mejores resultados en el posicionamiento de tu web. 60/100

61 Ved konkordanssøgningerne afdækkes ligeledes brugen af la web og el web, som forkortelser for hhv. página web og sitio web, men også for andre - dog ikke nær så hyppigt forekommende - termer, der blev fundet og noteret i løbet af konkordanssøgningerne. At página web og sitio web er de termer, som web hyppigst dækker over, kan blandt andet ses ud fra KWIC-konkordanslinjerne, som til dette undersøgelsesformål bør være temmelig lange (evt. window size 70). Et alternativ kunne være for oversætteren at anvende advanced-funktionen under concordance, hvor sitio web, página web samt alle de øvrige fundne termer, der også kan gemme sig bag forkortelsen web, kan indsættes som search term og web som context word. Der foreligger nu en række termer, der jf. korpusset alle kan forkortes web: página web (f), sitio web (m), sitio (m), website (m), site (m). I korpusset forkortes alle substantiverne i femininum la web - og substantiverne i maskulinum el web. Næste problemstilling er at finde ud af, hvilke af termerne der deler samme betydningsindhold og dermed kan have samme danske ækvivalent. De spanske termers betydningsindhold synes nemlig til tider at overlappe hinanden, i og med de meget ofte optræder i de samme kontekster uden umiddelbar meningsændring. F.eks.: Ajustar la información de las páginas para que aparezcan en las primeras posiciones de los buscadores se conoce como SEO consiste en lograr que un sitio web aparezca listado en las primeras posiciones de los buscadores optimizando tu sitio web y aumentado la popularidad de tu sitio para conseguir el objetivo de estar entre las primeras posiciones en Google. para lograr que los buscadores de Internet (Google, Yahoo,Msn..) sitúen en las primeras posiciones su página web dentro de su página de resultados Som hjælp til at undersøge dette forhold konsulteres den monolingvale ordbog CLAVE, der ved opslag under web, giver brugeren både grammatiske og faglige oplysninger. Web anføres i dette opslagsværk som forkortelse for sitio (de) web (m), página (de) web (f) samt world wide web (m). De tre termer står i hver sin artikel og har ikke samme betydningsindhold. Der foreligger nu tilstrækkelige beviser til at kunne konkludere, at web har tre forskellige betydningsindhold, som der nu skal redegøres for i tre faglige forklaringer. Samtidig skal de respektive synonymer fordeles på de rigtige betydningsindhold. De faglige forklaringer sammenstykkes af data fra det spanske delkorpus, CLAVE og 61/100

62 2. fase: synonymer Korpusdataene gør det, som allerede indikeret, hurtigt klart, at bl.a. sitio, página, sitio web og página web bruges uden umiddelbar meningsændring. For at få inkluderet så korrekte synonymer som muligt til hver af de faglige forklaringer anlægges der nu en korpusbaseret synsvinkel, hvilket her betyder, at ordbøgernes systematiserede opbygning kommer specialkorpussets ustrukturerede natur til hjælp. På angives yderligere synonymer for alle tre betydningsindhold, som web dækker over. Synonymerne som websitet foreslår, underlægges alle efterfølgende konkordanssøgninger i AntConc og/eller søgninger på webbet for at verificere deres faktiske brug. Inddelingen af synonymer efter betydningsindhold ser herefter således ud: 1. página web og página. 2. sitio web, sitio, website, site, página web, página. 3. WWW, World Wide Web, Telaraña Mundial og Malla Mundial. Grunden til den tilsyneladende lemfældige omgang med de to termer i fokus, página web og sitio web, hænger altså sammen med, at página (web) både bruges om betydning 1 og 2. Página (web) bruges både i betydningen en enkelt side på et websted, men også som betegnelse for en hel gruppe af páginas, der udgør et websted, som så kan betegnes enten sitio web eller página (web). 3. fase: grammatik Den elementære grammatik kan allerede på nuværende tidspunkt adresseres til de respektive ækvivalenter/synonymer i kraft af de observationer, der er gjort i forbindelse med de to indledende faser. 4. fase: kollokationer Den oplagte AntConc-analysefunktion til at finde kollokater til de tre betydninger af web på, er naturligvis collocates-funktionen, og det vil også være den funktion, der anvendes som udgangspunkt. Til tider vil clusters-funktionen dog også blive benyttet, da søgetermen her optræder eksplicit i hele sin kontekst, hvilket ofte kan være en god hjælp, hvorimod der i collocates kun genereres en liste af kollokater uden kontekst, hvilket til tider kan blive noget uoverskueligt. For at se søgeterm og kollokat i kontekst skal der i collocates klikkes på hvert enkelt kollokat, hvorefter programmet leder brugeren hen til alle de KWIC-konkordanslinjer, hvori kollokatet optræder. I konkordansfunktionen kan kwic sort så anvendes for at opspore den angivne kollokation. Oversætteren kan ved opfølgende clusters-undersøgelser hurtigere spotte eventuelle kollokationer, som ikke blev fanget i collocates. I collocates søges der til en start i et vindue på 8 ord, 4 til venstre og 4 til højre for søgeordet, for at være sikker på ikke at komme til at udelukke vigtige kollokater. Ordvinduet modificeres naturligvis, hvis oversætteren ud fra søgeresultaterne vurderer, at der er grund til at tro, at der kan opsnappes 62/100

63 flere ved at udvide vinduet, eller at det evt. ville være mere udbytterigt at indsnævre samme. Samme søgeprincip gør sig gældende i clusters-funktionen. Overvejer oversætteren at inkludere en kollokation, der kunne forekomme vigtig, men af en eller anden grund ikke optræder særligt ofte i korpusset, foreslås yderligere søgninger på www. Webbet nævnes som alternativ, da det som udgangspunkt må være bedst at beskrive dynamisk fagterminologi ud fra praktiske statistikker, dvs. typisk og opdateret sprogbrug, og altså ikke med afsæt i ordbøger, der baserer sig på i forvejen fastsatte regler og normer. Der ligger dog et problem både i de urimeligt store mængder af data på webbet og i søgefunktionerne, der på søgemaskinerne slet ikke tillader samme grad af sammenligning med andre kildedata som korporaene gør, idet korpusanalyseværktøjer gør det muligt for korpusbrugere på struktureret vis at underlægge enorme mængder formålsrelevante data sproglige analyser i løbet af sekunder. Korpusbrugeren må også huske at tage i betragtning, at webbet er tilgængeligt for alle, af hvilken grund der også er tekster af meget svingende kvalitet at finde, hvorfor både kendskab til korrekt udførelse af søgninger samt god kritisk sans er essentielle egenskaber for en oversætter, der ønsker at bruge webbet i sit arbejde web danske data 1. fase: grammatik inkl. opmærkning Der søges først på web i de bilingvale ordbøger angivet i bibliografien, da ordbogskonsultation viste sig udbytterig i forbindelse med den spanske ækvivalent. Konsultationerne giver dog ingen form for fagspecifik hjælp, men oplyser kun at det spanske web kan oversættes til web på dansk, at det både kan være fælleskøn, webben, og intetkøn, webbet, og at det ikke forekommer i pluralis. Med afsæt i samme søgestrenge som ved den spanske ækvivalent søges nu på web som enordsterm i det danske delkorpus: en web, et web, din web, dit web, webben, webbet: Så tilmelder jeg din hjemmeside til de relevante søgemaskiner. Når din web er registreret, kontrolleres visningen og vi laver eventuelt yderligere forbedringer. Optimering til søgemaskiner er et tidskrævende stykke arbejde, og desværre er der mange web som ikke har et minimum af "søgemaskine venlig" indretning. Heldigvis kan en website som regel forbedres væsentligt og tilmeldes så den får god placering og får en attraktiv tekst ved linket (...) Optimering af Web. Det handler om at optimere din hjemmeside før du begynder at lave for meget markedsføring. 63/100

64 Pluralisformen kunne bekræftes via korpusset, mens webbet og webben slet ikke forekom. Web optrådte dog med ubestemt artikel i både fælleskøn og intetkøn. Efterfølgende søgninger på Google verificerer imidlertid brugen af begge de bestemte former i SEO-kontekst. Weben optræder en enkelt gang i korpusmaterialet, men Google-søgninger afslører, at der må være tale om enten en tastefejl eller mangel på sproglig viden, da hverken weben eller webet ses brugt i SEO-sammenhæng. 2. fase: faglig forklaring inkl. afklaring af polysemi I forlængelse af første fase foretages der videre søgninger i concordance-funktionen, hvor det kan observeres, at web i de danske SEO-tekster oftest bruges om hjemmeside og website, som allerede antydet i korpuseksemplerne i fase 1. Her er det igen vigtigt at søge i et forholdsvist stor ordvindue. Site, websted og webside ses også ganske tit brugt i korpusset samt i SEO-kontekster på webbet som bagvedliggende termer for forkortelsen web: Google, AllTheWeb og andre robotbaserede søgetjenester er baserede på en automatiseret registrering, og derfor er det meget vigtigt at tage hensyn til de mange forskellige ting som søgerobotterne bruger når de registrerer en hjemmeside. Din web skal være opbygget så den viser de mest relevante tekster hvor søgerobotterne læser dem For at blive vist på en god placering og med en repræsentativ tekst i søgemaskinerne skal din web være meget grundigt tilmeldt: Der skal laves et godt forarbejde med analyse af søgeord og beskrivelser, disse tekster skal indbygges i websiten samt bruges ved selve tilmeldingerne. Din web skal være opbygget så den viser de mest relevante tekster hvor søgerobotterne læser dem, dvs, at den skal være "søgemaskine venligt indrettet". Og desuden skal din website, og den branche du arbejder i være, analyseret for at udvælge de optimale søgeord og de bedst mulige tekster, som ligger til grund for optimeringen. Problemet er nu, ligesom ved den spanske ækvivalent, at termerne ofte ses optræde i de samme kontekster og uden umiddelbar forskel i betydningsindhold, f.eks.: Næste prioritet er så at få besøgende på hjemmesiden Læs mere om, hvordan du får flere besøgende på din hjemmeside i artiklen "Flere besøg" Øg antallet af besøgende på jeres website med organisk søgemaskineoptimering Få flere besøgende på dit website og et bedre afkast på din investering (ROI) 64/100

65 Den sikreste måde, hvorpå der kan sørges for, at termerne i de tre spanske betydningskategorier forbindes med de rette ækvivalenter på dansk, er igen ved at sammenligne betydningsindhold. Derfor konsulteres nu den monolingvale online ordbog (DDO) samt (DSD) i forsøget på i første omgang at finde ud af, om der er forskel på betydningsindholdene i hjemmeside og website. Det følgende er indsat direkte fra DDO og DSD: DDO: Term: website Synonymer: site, websted, hjemmeside Term: hjemmeside Synonymer: homepage, webside DSD: Term: website, websted, netsted, samling af digitalt lagrede sider på en server, oprettet af en virksomhed, organisation eller privatperson. Et website kan være offentligt tilgængeligt via world wide web eller internt i en organisations eller virksomheds intranet. Term: hjemmeside, homepage. Ordet hjemmeside kan dog også benyttes synonymt med website. De to opslagsværker giver hverken enslydende eller fyldestgørende oplysninger, af hvilken grund termerne, der er blevet opsporet indtil videre, søges struktureret i de respektive betydningsindhold via webbet. Efterhånden som datasøgningen skrider frem, begynder der at tegne sig tre entydige betydningsindhold. Specielt websitet viser sig behjælpelig. Resultaterne fra søgningerne på webbet gør det muligt at formulere kvalificerede bud på tre faglige forklaringer, men for at være helt sikker på at indholdet i forklaringerne er gangbare i SEO-kontekst, sparres der med SEO-eksperten, som bekræfter rigtigheden af de danske forklaringer samt de foreslåede tilhørende termer. Dette betyder, at det nu er muligt at matche de danske faglige forklaringer med de spanske og således også matche de rette ækvivalenter. 3. fase: synonymer Fasen er faktisk allerede blevet gennemgået i løbet af de to forudgående faser ved brug af både korpora og eksterne online opslagsværker. 65/100

66 4. fase: kollokationer Med ækvivalenterne og synonymerne på plads kan der nu søges efter kollokationer til alle disse. Søgningerne foregår, som ved den spanske ækvivalent, ved brug af collocates- og clusters-funktionen i AntConc, men også ved brug af konkordansfunktionen samt kwic sort. Som afsluttende bemærkning bør det tilføjes, at synonymer, kollokationer og grammatiske observationer med kun få forekomster i korpusset altid bør verificeres på webbet eller hos en ekspert, inden de godkendes. Spansk Dansk Fagområde Søgemaskineoptimering Søgemaskineoptimering Term web web Grammatik SUB <m/f> webs SUB <fk/itk> webben, webbet Faglig forklaring 1. web <f> webs Documento electrónico adaptado para la WWW. Su contenido está escrito en un lenguaje específico para internet (HTML) que permite enlazar unas páginas con otras. 1. web <fk> webben Side på www der kan vises som et skærmbillede i en browser, og som er bygget op af tekst i HTML-format. Der kan navigeres rundt i siderne via hyperlinks. 2. web <m/f> webs Colección de páginas web, unidas entre sí por enlaces de hipertexto, dotada de una dirección web única. 2. web <fk/itk> webben, webbet Gruppe af websider på www der er kædet sammen i strukturer af hypertekst vha. hyperlinks og samlet på den samme webadresse. Synonymer 3. web <m/f> el. Web Sistema de información distribuido basado en hipertexto. La información puede ser de cualquier formato y es fácilmente accesible a los usuarios mediantes los programas navegadores. 1. página web <f> páginas web página <f> páginas 3. web <itk> webbet Facilitet på internettet der via en browser muliggør søgning i elektronisk lagrede dokumenter. 1. webside <fk> websiden, websider, websiderne side <fk> siden, sider, siderne 2. página <f> páginas página web <f> páginas web sitio web <m> sitios web sitio <m> sitios website <m> websites site <m> sites 2. hjemmeside <fk> hjemmesiden, hjemmesider, hjemmesiderne netsted <itk> netstedet, netsteder, netstederne side <fk> siden, sider, siderne site <fk/itk> siten el. sitet, sites, sitene webside <fk> websiden, websider, 66/100

67 websiderne website <fk/itk> websiten el. websitet, websites, websitene websted <itk> webstedet, websteder, webstederne Forkortelse Korpusbaserede kollokationer - Verber/adj. (L) 3. World Wide Web <m/f> WWW<m/f> 1. actualizar una ~ con contenido original de calidad; colocar una ~ en los primeros puestos de los buscadores; colocar una ~ en los principales buscadores; conseguir un mayor tráfico en una ~; crear enlaces de cada ~ a la página principal; crear tráfico en una ~; enlazar internamente las ~s de un sitio web; generar tráfico en una ~; generar tráfico para una ~; llevar tráfico a una ~; mejorar la posición de una ~; optimizar una ~ para los buscadores; optimizar una ~ para mejorar el posicionamiento en los buscadores; poner una ~ en los primeros puestos de los resultados; posicionar palabras clave para una ~; posicionar una palabra clave por cada ~; posicionar una ~ en los primeros puestos; posicionar una ~ en los principales buscadores; situar una ~ en una posición alta 3. world wide web www 1. drive trafik til en ~ fra søgemaskiner; henvise til ~r på webstedet; indeksere alle ~r i hjemmesiden; indsætte keywords på webstedets ~r; linke til ~r på et website; læse indholdet af ~rne; navigere til ~r på et websted; opdatere en ~; oprette optimerede ~r på et websted; optimere en ~ til søgemaskinerne; optimere en ~ til søgeord; placere en ~ højt i søgemaskinernes resultatliste; placere en ~ bedre i søgemaskinerne; placere en ~ bedst muligt; placere en ~ øverst i søgemaskinernes resultater; redigere i en ~; skabe relevant trafik til en ~; søgemaskineoptimeret ~; øge en ~s synlighed i søgemaskinerne; øge en ~s synlighed på søgemaskinerne; øge en ~s trafik igennem søgemaskiner 2. aumentar la popularidad de un/una ~; colocar un/una ~ en los primeros puestos de los buscadores; colocar un/una ~ en los principales buscadores; conseguir un mayor tráfico en un/una ~; crear tráfico en un/una ~; generar tráfico en un/una ~; generar tráfico para un/una ~; hacer un/una ~ amigable con los buscadores; llevar tráfico a un/una ~; mejorar la posición de un/una ~; mejorar la posición de un/una ~ en los resultados de los buscadores; optimizar un/una ~ para los buscadores; optimizar un/una ~ para 2. drive trafik til en/et ~ fra søgemaskiner; gøre en/et ~ mere søgemaskinevenlig/søgemaskinevenligt; indeksere en/et ~; linke til en/et ~; optimere en/et ~ til søgemaskinerne; placere en/et ~ højt i søgemaskinernes resultatliste; placere en/et ~ bedre i søgemaskinerne; placere en/et ~ bedst muligt; placere en/et ~ øverst i søgemaskinernes resultater; redigere i en/et ~; skabe relevant trafik til en/et ~; søgemaskineoptimeret ~; øge en/et ~s synlighed i søgemaskinerne; øge en/et ~s 67/100

68 Korpusbaserede kollokationer - Verber/adj. (R) mejorar el posicionamiento en los buscadores; poner un/una ~ en los primeros puestos de los resultados; posicionar un/una ~ en los primeros puestos; posicionar un/una ~ en los principales buscadores; situar un/una ~ en una posición alta 1. ~ aparece en el listado de resultados; ~ optimizada para los buscadores; ~ sale en los primeros resultados synlighed på søgemaskinerne; øge en/et ~s trafik igennem søgemaskiner 1. ~n ligger blandt de øverste søgeresultater; ~rne på webstedet er linket til hinanden; ~ på en hjemmeside Korpusbaserede kollokationer - Substantiver (L) Korpusbaserede kollokationer - Substantiver (R) Kilde(r) Bemærkninger 2. ~ aparece en el listado de resultados; ~ optimizado/optimizada para los buscadores; ~ sale en los primeros resultados 1. un enlace apunta a una ~ de un sitio web; optimización de cada ~ de un sitio 2. análisis de un/una ~; estructura de un/una ~; navegación en un/una ~; optimización de un/una ~; posición de un/una ~ en los resultados de un buscador; posicionamiento de un/una ~ en los buscadores 1. ~ dentro de un sitio web 3. Der blev ikke fundet kollokationer til den 3. betydning af web, men står oversætteren i en situation, hvor denne har brug for oplysninger om kollokationer, foreslås trial and error-søgninger i Google. Telaraña Mundial og Malla Mundial blev 2. ~n/~t ligger blandt de øverste søgeresultater 1. indhold på en ~; opbygning af ~r; optimering af eksisterende ~r 2. indhold på en/et ~; optimering af en/et ~ i forhold til søgemaskiner; optimering af en/et ~ til søgemaskiner; søgemaskineoptimering af en/et ~ ario_internet.html#indice; CLAVE; 1. og 2. Página og página web er polyseme og kan både bruges i betydning 1 og 2. DSD; DDO; gyldendal.dk; og 2. Website og site forekommer begge i både fælleskøn og intetkøn, men termerne anvendes langt hyppigst med intetkøn. Webside og side er polyseme og kan både bruges i betydning 1 og Der blev ikke fundet kollokationer til den 3. betydning af web, men står oversætteren i en situation, hvor denne har brug for oplysninger om kollokationer, 68/100

69 fundet på ario_internet.html#indice som synonym for WWW, men kunne ikke understøttes statistisk af hverken det spanske korpus eller webbet og blev af den årsag ikke medtaget i selve termarket. foreslås trial and error-søgninger i Google. Oprettet juli 2011 juli buscadores spanske data 1. fase: faglig forklaring inkl. lemmatisering Den kanoniske form af buscadores er buscador, og det er naturligvis sidstnævnte, der angives som lemma i termarket. Forklaringen på, at buscadores figurerer på keywordlisten frem for buscador, kan findes i concordance- og/eller clusters-funktionen, hvori det tydeliggøres, at pluralisformen indgår i rigtig mange flerordstermer. Der søges nu KWIC-konkordanslinjer med søgetermen buscador, der kan forklare, hvad en buscador kan og gør. Korpusset vrimler med korte, entydige og pædagogiske redegørelser for buscador som begreb, så den faglige forklaring kan nemt udarbejdes udelukkende ud fra korpusdata. Her følger et par korpusuddrag: Un buscador Web es un gran sistema informático que devuelve a sus usuarios listas con referencias a páginas que contienen información sobre los términos que estos introducen. Existen diferentes tipos de buscadores, pero los que más nos interesan desde un punto de vista del posicionamiento en Internet son los grandes buscadores generalistas: Google, Yahoo, Live, Ask, etc. En un lenguaje un poco más técnico se conocen como motores de búsqueda". Cómo funciona a grandes rasgos un buscador. El índice es la estructura de datos que el buscador consulta para satisfacer las búsquedas de los usuarios. El proceso de construcción del índice se llama indexación. 2.4 Qué procesos realiza un buscador Los procesos fundamentales de un buscador son dos: resolver las búsquedas propiamente dichas (búsqueda) y la construcción/actualización del índice (indexación). Den faglige forklaring, der sammenstykkes ud fra korpusdata, bekræftes bagefter ved at sammenholde den med forklaringerne på: og 2. fase: synonymer Med reference til de netop udførte konkordanssøgninger er der ikke umiddelbart andre synonymer at spore end motor de búsqueda, så i fase nr. 2 bruges en korpusbaseret tilgang, hvor der tages ud- 69/100

70 gangspunkt i ordbogsdata, der siden søges verificeret i korpusdataene. På bliver der eksempelvis fundet tre synonymer til buscador: motor de búsqueda, indexador de información og sistema de búsqueda. Førstnævnte forekommer hyppigt i det spanske delkorpus, mens indtastning af de to sidstnævnte ikke genererer nogen som helst søgeresultater i concordance. Søgninger på webbet viser dog, at sistema de búsqueda bruges overordentligt tit i SEO-kontekst. Indexador de información bør, i henhold til søgningerne på www, udelades, da Google-søgningen +SEO + indexador de información site:es kun genererer 1 hit. Efterprøvende brede søgninger på buscador i clusters-funktionen gør desuden korpusbrugeren opmærksom på varianterne buscador web samt buscador de Internet, der i korpusset tit ses anvendt som synonym i SEO-sammenhæng, og som også kan bekræftes via www-søgninger. 3. fase: grammatik Der har ikke været noget grammatisk bemærkelsesværdigt at notere sig vedrørende termen og dens synonymer i løbet af konkordanssøgningerne. Heller ikke ordbøgerne eller eksterne søgninger på webbet oplyser om afvigende grammatik for termerne. 4. fase: kollokationer En lidt pudsig opfordring bør gives til brugeren i denne fase. Konkordanssøgningerne i forbindelse med buscador hidtil har nemlig ladet oversætteren erfare, at det kan være givtigt med vilje at stave ord forkert, búsqueda =búsqeuda*, i forbindelse med udførelsen af analyser i AntConc. Når det så er sagt, bør kollokationerne i dette tilfælde findes ved hjælp af funktionerne clusters og concordance. Anvendelse af collocates forekommer i dette tilfælde uadækvat og ineffektivt, da buscador/buscadores indgår i de nævnte flerordstermer, hvilket gør søgeresultaterne i collocates misvisende, alt imens resultaterne i de andre to funktioner er umiddelbart gennemskuelige buscadores danske data 1. fase: synonymer Oversætteren må efter indsamling af datamateriale forventes at have opfanget, at buscador i SEOkontekst betyder søgemaskine. Skulle oversætteren imidlertid være i tvivl, kan der findes belæg for oversættelsen i det danske korpusmateriale via klyngestrategien. Google går f.eks. igen mange gange i spanske kontekster indeholdende buscador, så funktionen advanced er her adækvat at anvende, 70/100

71 idet søgemaskine (+ regex) kan indsættes som search term, mens Google kan indsættes som context word. Med en context horizon fra 15L til 15R genereres der 291 konkordanshits, bl.a. følgende konkordanslinjer, der, jf. lignende spanske sprogmønstre, kan verificere søgemaskine som ækvivalent til buscador/motor de búsqueda/sistema de búsqueda: En el caso del posicionamiento en buscadores son solamente tres motores de búsqueda quienes aportan el 95% del tráfico de visitantes a nuestra web. Estos tres buscadores son Google, MSN Search y Yahoo!. La optimización de páginas web es el proceso de modificar la información de una pagina web para mejorar su posición en los buscadores de Internet, tales como: Google, Yahoo, MSN, Ask, etc. De tre store søgemaskiner i dag, Google, Yahoo og MSN, har alle deres søgemaskine som deres kerneydelse. Søgemaskineoptimering (SEO) er en systematisk metode til at få hjemmesider placeret bedst muligt i Google, Yahoo, MSN, Live Search og andre søgemaskiner. Der foretages nu yderligere konkordanssøgninger på hhv. Google og søgemaskineoptimering i Ant- Conc for at se, om der skulle optræde synonymer i nærheden af disse termer. Der opspores dog ingen synonymer til søgemaskine, hverken i det danske delkorpus, de mono- eller bilingvale opslagsværker eller på webbet. 2. fase: faglig forklaring Korpusdataene indeholder mange relevante data til udarbejdelse af en pålidelig faglig forklaring, f.eks. nedenstående korpusuddrag: En søgemaskine virker som en åben database, hvor informationer opsamles løbende fra Internettets forskellige websteder. Informationerne indsamles efter forskellige systemer (algoritmer) afhængigt af de enkelte søgemaskiner. Disse vægter forskellige opsætninger på siderne forskelligt. Det kan være metatags, beskrivelser, bodytekst og link-popularitet på de enkelte sider. Alt sammen forhold, der afgør den aktuelle placering på den enkelte søgemaskine. Robotterne / spiderne er dem, som søgemaskinerne anvender til at hente information fra de enkelte sider, de sendes igennem. Robotterne følger nettes mange tråde ( links ) til de forskellige websites og registrerer derefter og gemmer de informationer, de har hentet i den pågældende søgemaskines eget logaritme system. Disse ord / ordstillinger, samlinger af tekster, beskrivelser etc. gemmes i databasen og kommer frem, når der søges på et bestemt ord eller ordstilling. 71/100

72 Det er derfor ikke nødvendigt med supplerende data fra webbet. 3. fase: grammatik Den danske ækvivalent følger, ifølge korpusset og de tilgængelige opslagsværker, den regelmæssige grammatik. 4. fase: kollokationer Endnu en gang bruges concordance frem for collocates- og clusters-funktionen, idet søgemaskine indgår i mange flerordstermer. Det kan til tider være noget vanskeligt at differentiere mellem flerordstermer og kollokationer ud fra de to sidstnævnte AntConc-funktioner, så for at få et bedre overblik over konteksterne, hvori termen indgår, indtastes søgestrengen søgemaskine søgemaskiner søgemaskinerne (+kwic sort) i concordance, hvorfra kollokationerne efter nærlæsning udtrækkes. Nedenfor ses det udarbejdede termark: Spansk Dansk Fagområde Søgemaskineoptimering Søgemaskineoptimering Term buscador søgemaskine Grammatik SUB <m> buscadores SUB <fk> søgemaskinen, søgemaskiner, søgemaskinerne Faglig forklaring Synonymer Base de datos que incorpora automáticamente páginas web mediante arañas de búsqueda. Permite al usuario acceder a la información incorporada a través de palabras de búsqueda introducidas por él. buscador de internet <m> buscadores de internet buscador web <m> buscadores web motor de búsqueda <m> motores de búsqueda sistema de búsqueda <m> sistemas de búsqueda Database med indhold fra websider på www, der indhentes automatisk af søgerobotter. Brugeren kan søge i databasen via indtastning af søgeord. Forkortelse Korpusbaserede kollokationer - Verber/adj. (L) aparecer en los resultados de un ~; aumentar la popularidad en ~es/~s; dar de alta una página en un ~; estar bien posicionado en los ~es/~s; incrementar el tráfico de visitantes a partir de ~es/~s; blive besøgt af ~r; blive fundet af ~rne; blive fundet i ~rne med søgemaskineoptimering; blive indekseret af ~rne; blive synlig i ~rne; de store ~r; drive trafik til et website fra ~r; foretage 72/100

73 Korpusbaserede kollokationer - Verber/adj. (R) Korpusbaserede kollokationer - Substantiver (L) Korpusbaserede kollokationer - Substantiver (R) lograr que un ~ sitúa una web en las primeras posiciones; los grandes ~es/~s; los principales ~es/~s; posicionar una página en ~es/~s; recibir visitas desde los ~es/~s; ser indexado en los ~es/~s; ser penalizado por los ~es/~s; ser visible en ~es/~s aparición en los ~es/~s; colocación de una web en un ~; indexación en ~es/~s; página almacenada en un ~; resultados de un ~; resultados generados por un ~; tráfico proveniente de ~es/~s; usuario de un ~; visibilidad en ~es/~s; visitantes que provienen de los ~es/~s Kilde(r) Bemærkninger Sistema det búsqueda bruges tit, men ikke nær så ofte som de øvrige synonymer. Oprettet juli 2011 juli 2011 en søgning i en ~; foretrukken ~; nå til tops på en ~; opnå en topplacering i en ~; optimere mod en ~; optimere til en ~; registrere en hjemmeside hos en ~; skrive sider til en ~; synlig i ~rne; søge på en ~; taste søgeord ind i en ~; udføre en søgning i en ~ ~r belønner websider; ~rne rangerer websites; ~rne søger efter nye hjemmesider besøgende fra ~r; hjemmesider læses af ~rne; placering på en ~; placering i en ~; synlighed i ~r; trafik fra ~r 13.3 SEO spanske data 1. fase: synonymer Det engelske akronym SEO (Search Engine Optimization) er efterhånden så velkendt, at det ikke er nødvendigt med ordbogsopslag for at finde ud af, at termen SEO er lige så fast integreret i spansk SEO-sprogbrug som i engelsk, hvilket blev afsløret allerede i indsamlingsfasen. Indsamlingsfasen gjorde desuden brugeren opmærksom på, at der findes en lang række synonymer, som der nu skal skabes overblik over ved at udføre konkordanssøgninger i AntConc. Det er nemlig, som nu flere gange antydet, nødvendigt at kunne se fulde kontekster for at være sikker på kun at medtage flerordstermer med enslydende betydningsindhold. Fremgangsmåden bliver således, at SEO indtastes som søgeterm mens search window size indstilles til ca. 80. Dernæst skimmes søgeresultaterne igennem, og synonymerne til SEO noteres, efterhånden som de bliver fundet, hvorefter de indtastes som nye søgetermer i concordance-funktionen og så 73/100

74 fremdeles. På den måde skulle det være muligt for oversætteren at forgrene sig længere ud i sprogbrugen og således evt. opspore endnu flere synonymer. Nedenfor indsættes et udpluk af relevante KWIC-konkordanslinjer fra de indledende søgninger på SEO: Ventajas del posicionamiento web o SEO. El posicionamiento web permite llegar directamente al público objetivo El posicionamiento SEO (Search Engine Optimization / Optimización para Buscadores) en los resultados ofrecidos por los principales buscadores Cómo se reliza un análisis exhaustivo para una correcta optimización en buscadores u optimización SEO, con la finalidad de obtener las mejores posiciones en los buscadores.? el objetivo final de un proceso de optimización en motores de búsqueda (SEO) o posicionamiento en buscadores consiste en obtener y mantener en el tiempo los primeros puestos en los resultados de las búsquedas realizadas por tu audiencia El posicionamiento en buscadores o posicionamiento web es una técnica que consiste en conseguir aparecer entre las primeras posiciones Para los sitios web comerciales, el posicionamiento SEO en buscadores es un servicio imprescindible que permite obtener tráfico de calidad y, por lo tanto, clientes. El servicio de posicionamiento web en buscadores, también conocido como SEO (Search Engine Optimization), permite posicionar tu web en los principales buscadores, por las palabras más relevantes de tu sector empresarial y en los idiomas que desees. SEARCH ENGINE OPTIMIZATION o OPTIMIZACIÓN PARA MOTORES DE BÚSQUEDA. Se trata de la optimización de las páginas de una web para su posterior aparición en las primeras posiciones de los resultados de una búsqueda Las principales ventajas del posicionamiento web seo en buscadores frente a los enlaces patrocinados son: El posicionamiento de sitios web, comúnmente llamado optimización de buscadores (SEO), consiste en hacer que un sitio web salga en los principales buscadores Son muchas las definiciones de posicionamiento web: optimización para los motores de búsqueda (traducción del original inglés SEO), (Search Engine Optimization), posicionamiento natural, posicionamiento orgánico 74/100

75 Det ses her, at de synonyme forhold mellem SEO og denne terms synonymer i korpustekstuddragene udtrykkes eksplicit ved enten o, consiste en, también conocido como, se conoce como, skråstreg, kolon eller parentes. Intet andet opslagsværk vil kunne foreslå noget, der bare minder om omfanget af synonymer fundet via det spanske delkorpus. Det specialiserede SEO-korpus udgør her et effektivt redskab til udtrækning af synonymer - og et langt mere effektivt og overskueligt redskab end webbet. Synonymerne, der er blevet inkluderet i termarket, optræder alle med høj frekvens i korpusset og i mange forskellige kilder, så derfor kan de på sikkert grundlag medtages i de leksikografiske data. Den store mængde af synonymer kunne give anledning til at tro, at korpusset måske ikke har fået opsnappet samtlige varianter, hvorfor efterfølgende www-søgninger foretages. Dette resulterer i lidt flere synonymer. 2. fase: faglig forklaring I løbet af første fase stifter brugeren bekendtskab med en masse forklarende og uddybende fakta angående SEO, som kan bruges i den faglige forklaring. Det er unødvendigt med supplerende, eksterne kilder i denne henseende grundet den store, relevante og pålidelige datamængde tilgængelig i korpusset. Forklaringerne er ofte at finde sammen med klynger af synonymer, hvilke der ses eksempler på i fase fase: grammatik Termen SEO samt enkelte af synonymerne indeholdende SEO er nødvendige at undersøge nærmere i såvel korpusset som ude på webbet, da termen jo er et ord importeret fra engelsk og derfor kan forventes at afvige fra den spanske grammatik. Forkortelsens genus efterprøves til en start i både korpusset og på webbet, hvilket på overbevisende vis oplyser brugeren om, at el SEO er at foretrække frem for la SEO. Ved indtastning af søgeordene +"los SEO" "search engine optimization" site:es genereres der i Google 155 hits, mens +"los SEOs" "search engine optimization" site:es generer 41 resultater. Ved +"los SEO" "posicionamiento en buscadores" site:es generes der endnu flere hits, nemlig og hele 224 hits på +"los SEOs" "posicionamiento en buscadores" site:es. Det må altså nødvendigvis være muligt både at udelade en endelse i pluralis, men også at tilføje et s. Fortsættes der med at udskifte search engine optimization / posicionamiento en buscadores med andre synonymer, fortsætter tendensen til overvægt af hits på los SEO frem for los SEOs imidlertid. 75/100

76 I de konstruktioner der udgøres af to substantiver, hvoraf den sidste modificerer det første, som var det et adjektiv, f.eks. som i posicionamiento SEO, skal der gøres opmærksom på, at det ifølge regelmæssig spansk grammatik normalt kun er det første substantiv, der bliver bøjet i pluralis. 4. fase: kollokationer I dette tilfælde vælges udelukkende clusters-funktionen for at få et hurtigt, afgrænset overblik over kollokationerne til alle synonymerne. Cluster size angives til 2-10, eftersom nogle af synonymerne er temmelig lange SEO danske data 1. fase: synonymer Ud fra samme princip som ved opsporing af spanske synonymer til SEO, undersøges det i concordance, om der mon findes lige så mange synonymer for SEO på dansk som på spansk. Også her kan det være meget givtigt med vilje at skrive søgetermerne, der findes i korpusset, forkert, da det i indsamlingsfasen og ved tidligere konkordanssøgninger ofte er fremgået, at flerordstermer fejlagtigt ses skrevet i to ord. Udgangspunktet er altså at indtaste termen SEO i concordance, notere synonymerne der dukker op, indtaste dem som nye søgetermer i jagten på endnu flere synonymer og så fremdeles. Når brugeren ikke længere støder på nye synonymer trods søgninger i nye kontekster eller kilder, må fasen forventes at være afsluttet i korpusset. På grund af det store antal synonymer er søgningerne også her fortsat ud på webbet, da det kunne tænkes at korpusset ikke indeholder alle varianter. Der blev fundet endnu flere synonymer på www, og disse pålidelige samt statistisk relevante resultater medtages i termarket. 2. fase: faglig forklaring I forlængelse af synonymerne, som i korpusdataene ofte optræder i grupper, findes der i korpusset ofte uddybende forklaringer om SEO-begrebet. Disse forklaringer giver masser af materiale til sammensætning af en specifik, afgrænset og dækkende faglig forklaring, til hvilket formål der i denne henseende ikke er brug for eksterne kilder. Hermed et par korpuseksempler på synonymer i grupper med umiddelbart efterfølgende forklaring: SEO (Search Engine Optimization eller søgemaskineoptimering) er en integreret del af SEM (Search Engine Marketing). Formålet med SEO er at drive trafik til dit website fra søgemaskiner som Google eller Yahoo ved at opnå den højest mulige placering i de organiske søgeresultater. 76/100

77 SEO er en forkortelse af Search engine optimization som på dansk er blevet til søgemaskineoptimering. SØGEOPTIMERING SEO. (...) SØGEMASKINE-EKSPERTENS ARBEJDE. Søgemaskineoptimering er søgemaskine-ekspertens arbejde. Kort og forenklet sagt kan søgemaskine-ekspertens arbejde opdeles i to hovedområder: Søgemaskineoptimering - også kaldet organisk søgemaskineoptimering eller SEO (Search Enginge Optimization, som søgemaskineoptimering hedder på engelsk) - er et must for succes på Internettet. (...) Søgemaskineoptimering er en langsigtet strategi baseret på søgemaskinernes egne algoritmer, da søgemaskinerne ikke nødvendigvis kommer og tjekker din hjemmeside dagligt - så dermed kan man let konkludere at søgemaskineoptimering ikke laves på en dag. 3. fase: grammatik I denne tredje fase er det vigtigt at have in mente, at afsenderne nok ikke først og fremmest er sproglærde men derimod eksperter inden for et fagområde. Et synonym bør ikke uden videre medtages, blot fordi det er statistisk stærkt til stede i autentiske korpusdata. Oversætteren bør altid huske at bruge sin viden om dansk grammatik og ikke blindt inkludere et synonym, selvom det måtte afvige fra den danske grammatik. Det er specielt flerordstermerne, der er problematiske. De grammatiske overvejelser bør specielt gå på, hvorvidt og hvordan disse skal sammenskrives, samtidig med at bindestregsproblematikken spiller en vigtig rolle i sammensætninger med forkortelser 11, som f.eks. SEO. Her vil monolingvale ordbøger og retskrivningsordbøger være en god hjælp. Nedenfor indsættes et par sprogligt ukorrekte korpuseksempler: SEO optimering af din hjemmeside i forhold til Google* Vores arbejde med Google optimering på din hjemmeside skaber den styrke på den helt rigtige måde* Google søgemaskineoptimering - SEO optimering* Angående akronymet SEO har dette i dansk sprogbrug ingen artikel, ligesom det heller ikke bøjes i pluralis. Dette er blevet bekræftet i korpusset, på webbet og også hos ekspert Jens Peter Nielsen /100

78 4. fase: kollokationer Grundet de mange synonymer bruges, ligesom ved de spanske kollokationer, clusters-funktionen for at få et hurtigt, afgrænset overblik over kollokationerne. Cluster size angives igen til omkring 2-10 i kraft af de til tider forholdsvist lange synonymer. Spansk Dansk Fagområde Søgemaskineoptimering Søgemaskineoptimering Term SEO SEO Grammatik SUB <m> - el. SEOs SUB Faglig forklaring Synonymer Acrónimo de las palabras inglesas: Search Engine Optimization. Consiste en aplicar diversas técnicas tendientes a lograr que los buscadores sitúen determinada página web lo más arriba posible dentro de su página de resultados orgánicos para determinados términos y frases clave de búsqueda. optimización de buscadores <f> optimizaciones de buscadores; optimización de los motores de búsqueda <f> optimizaciones de los motores de búsqueda; optimización en buscadores <f> optimizaciones en buscadores optimización frente a los buscadores <f> optimizaciones frente a los buscadores optimización para buscadores <f> optimizaciones para buscadores optimización para Google <f> optimizaciones para Google optimización para motores de búsqueda <f> optimizaciones para motores de búsqueda Akronym for den engelske betegnelse Search Engine Optimization. Proces hvor der arbejdes med forskellige parametre på websitet med det formål at opnå en topplacering i en søgemaskine på søgeord, som har relevans for websitets indhold. Google-optimering <fk> Googleoptimeringen, Google-optimeringer, Googleoptimeringerne Google-søgemaskineoptimering <fk> Googlesøgemaskineoptimeringen, Googlesøgemaskineoptimeringer, Googlesøgemaskineoptimeringerne optimering til Google <fk> optimeringen til Google, optimeringer til Google, optimeringerne til Google optimering til søgemaskiner <fk> optimeringen til søgemaskiner, optimeringer til søgemaskiner, optimeringerne til søgemaskiner organisk SEO optimización SEO <f> optimizaciones SEO optimización web <f> optimizaciones web optimización web para buscadores <f> optimizaciones web para buscadores optimización web para Google <f> optimizaciones web para Google posicionamiento en buscadores <m> posicionamientos en buscadores posicionamiento en buscadores natural <m> search engine optimization SEO-optimering <fk> SEO-optimeringen, SEOoptimeringer, SEO-optimeringerne SE-optimering <fk> SE-optimeringen, SEoptimeringer, SE-optimeringerne søgemaskineoptimering <fk> søgemaskineoptimeringen, søgemaskineoptimeringer, søgemaskineoptimeringerne søgeordsoptimering <fk> 78/100

79 posicionamientos en buscadores naturales posicionamiento en buscadores orgánico <m> posicionamientos en buscadores orgánicos posicionamiento en motores de búsqueda <m> posicionamientos en motores de búsqueda posicionamiento SEO <m> posicionamientos SEO posicionamiento SEO en buscadores <m> posicionamientos SEO en buscadores søgeordsoptimeringen, søgeordsoptimeringer, søgeordsoptimeringerne søgeoptimering <fk> søgeoptimeringen, søgeoptimeringer, søgeoptimeringerne søgemaskineoptimering til Google <fk> søgemaskineoptimeringen til Google, søgemaskineoptimeringer til Google, søgemaskineoptimeringerne til Google posicionamiento web <m> posicionamientos web posicionamiento web en buscadores <m> posicionamientos web en buscadores posicionamiento web natural <m> posicionamientos web naturales posicionamiento web orgánico <m> posicionamientos web orgánicos posicionamiento web para buscadores <m> posicionamientos web para buscadores ubicación web en buscadores <f> ubicaciones web en buscadores Search Engine Optimization <f> Forkortelse SEO SEO Korpusbaserede kollokationer - Verber (L) Korpusbaserede kollokationer - Verber (R) Korpusbaserede kollokationer - Substantiver (L) Korpusbaserede kollokationer - Substantiver (R) Kilde(r) Bemærkninger conseguir un buen/una buena ~; conseguir un mejor/una mejor ~; deasarrollar estrategias de ~; incidir en el/la ~; influir en el/la ~; realizar un/una ~ la tarea de ~ teknikker til ~ ~ de un sitio web SEO tenderer imod at bøjes SEO i pluralis og ikke SEOs, selvom begge skrivemåder eksisterer i både Google og korpusset. foretage ~ på en hjemmeside; opnå resultater med ~; udføre ~ på en hjemmeside På trods af dobbeltkonfekten indeholdt i SEO-optimering (Search Engine Optimization-optimering), så bruges denne 79/100

80 Da Google er den søgemaskine, som bruges af flest www-brugere, er det også den søgemaskine, som de fleste (hvis ikke alle) SEO-udbydere optimerer en kundes website til. Af den grund er f.eks. Google-optimering blevet synonymt med SEO. Oprettet juli 2011 juli 2011 term langt hyppigere end den sprogligt mere korrekte term SE-optimering (Search Engineoptimering) posicionamiento spanske data 1. fase: synonymer Først foretages der en helt simpel konkordanssøgning på posicionamiento for at identificere kontekster eller typiske sprogmønstre, hvori posicionamiento optræder som selvstændig term og ikke som en del af de mange flerordstermer, der netop er blevet noteret som synonymer til SEO. Hermed et par autentiske eksempler fra det spanske delkorpus: Este es el consejo más importante para obtener un buen posicionamiento obtener un buen posicionamiento para tu página web sería aparecer entre los primeros resultados Los sitios logran buen posicionamiento como una consecuencia Ud fra nogle af de hyppigt forekommende sproglige mønstre indeholdende posicionamiento som central term, forsøges eventuelle synonymer nu opsporet i det spanske delkorpus. Verber som obtener og lograr samt adjektiverne buen og mejor ses i korpusset tit gå igen i ordklynger med posicionamiento, så med afsæt i denne viden indtastes søgningen (obten tien tuv)[a-z]+ (+regex) i concordance-søgefeltet, mens buen indtastes som context word i advanced-funktionen med context horizon fra 0R til 5R. Skærmbilledet for de genererede resultater af denne søgning ser sådan ud: 80/100

81 Ranking viste sig f.eks. at optræde i samme sproglige kontekst som posicionamiento, og opfølgende konkordanssøgninger viser, at termen faktisk bruges som synonym for posicionamiento. Ud fra samme princip søges der via advanced-funktionen på obtener som søgeterm og mejor som context word, obtener som søgeterm og buen som context word, lograr som søgeterm og mejor som context word samt lograr som søgeterm og buen som context word for at se, om det skulle generere flere synonymer. Det er ikke tilfældet, så søgningerne forsøges gjort bredere ved at fjerne buen og mejor fra feltet context word og foretage følgende brede regex-søgning i concordance (obten tien tuv)[a-z]+. Nu fremkommer der op til flere KWIC-konkordanslinjer med synonymer for posicionamiento: Hoy en día, incluir información útil y única es la mejor manera de obtener buenos rankings. La indexación en los buscadores es el paso previo a la obtención de primeras posiciones en los motores de búsqueda. No perseguimos solo obtener los primeros puestos en los buscadores, sino los primeros puestos en aquellos términos o frases que representen un valor añadido a nuestro negocio. 81/100

Vis mere