etablering af en model for diskursrelationer



Relaterede dokumenter
RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

DIO. Faglige mål for Studieområdet DIO (Det internationale område)

Aktivitet: Du kan skrive et specialeoplæg ud fra punkterne nedenfor. Skriv så meget du kan (10)

Metoder og struktur ved skriftligt arbejde i idræt.

Bedømmelsesvejledning til prøven i skriftlig fremstilling D, december Dansk som andetsprog

Forberedelse. Forberedelse. Forberedelse

Fremstillingsformer i historie

Det centrale emne er mennesket og dets frembringelse Humaniora:

At the Moment I Belong to Australia

Bedømmelsesvejledning til prøven i skriftlig fremstilling G, december Dansk som andetsprog

Skriv en artikel. Korax Kommunikation

Italien spørgeskema til seminarielærere / sprog - dataanalyse

Forberedelse. Forberedelse. Forberedelse

Akademisk tænkning en introduktion

Vejledning til Projektopgave. Akademiuddannelsen i projektstyring

Konstruktiv Kritik tale & oplæg

SIV engelsk Kursusevaluering foråret 2014

Prosodi i ledsætninger

Dansk/historie-opgaven

1.0 FORMELLE KRAV HVORDAN OPGAVENS OPBYGNING... 2

5. Retorik; skrive taler, hvor man inddrager argumentation og de forskellige appelformer.

Opgavekriterier. O p g a v e k r i t e r i e r. Eksempel på forside

Forberedelse. Forberedelse. Forberedelse

ALMEN GRAMMATIK 1. INDLEDNING. At terpe eller at forstå?

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

I DAG: 1) At skrive et projekt 2) Kritisk metodisk refleksion

Hvad er skriftlig samfundsfag. Redegør

AKADEMISK IDÉGENERERING JULIE SCHMØKEL

(bogudgave: ISBN , 2.udgave, 4. oplag)

Opgavekriterier Bilag 4

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Metoder til refleksion:

Store skriftlige opgaver

Engelsk på langs DANMARKS EVALUERINGSINSTITUT

Avisforside. Vi har skrevet en avis om studier ved Aarhus Universitet

Lita Lundquist: Oversættelse. Problemer og strategier, set i tekstlingvistisk og pragmatisk perspektiv. Gylling: Samfundslitteratur, 1997 (2. udg.

Skriftlig genre i dansk: Kronikken

Forberedelse. Forberedelse. Forberedelse

Synopsisvejledning til Almen Studieforberedelse

Hensigten har været at træne de studerende i at dele dokumenter hvor der er mulighed for inkorporering af alle former for multimodale tekster.

AT-eksamen på SSG. Projektarbejde, synopsis, talepapir og eksamen

Dansk og/eller Samtidshistorieopgaven

Bilag til AT-håndbog 2010/2011

OM PROJEKTOPGAVER GENERELT

Eksamensprojekt

Sproglig-stilistisk analyse (en omtale af forskellige kilder)

Projektarbejde vejledningspapir

Ordliste over anvendt fagterminologi

Christianshavns Gymnasium Studieretningsopgaven i 2.g (SRO) januar- marts 2014 VEJLEDNING

Censorvejledning engelsk A og B, stx Maj 2014

Censorvejledning engelsk B, HF 2017-læreplan

Fokusgruppeinterview. Gruppe 1

Almen studieforberedelse. - Synopsiseksamen 2015

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Fordeling af karakterer

Forberedelse. Forberedelse. Forberedelse

Diskursrelationer

Kompetenceområdet fremstilling. Mandag den 3. august 2015

Guide til lektielæsning

Projektarbejde. AFL Institutmøde den Pernille Kræmmergaard Forskningsgruppen i Informatik

En fagperson fa r ordet: Interview med Hans Basbøll

Basale hjælpemidler til løsning af skriftlige afleveringer/ årsprøve/ terminsprøve og eksamen:

Skriftligt dansk. Taksonomiske niveauer og begreber. Redegørelse

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Dansk som andetsprog G

Dansk-historieopgaven (DHO) skrivevejledning

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Projektskrivning - tips og tricks til projektskrivning

Prøvebeskrivelser for moduler. på 4. semester (prøve 6) med 2 prøveformer. foråret 2007

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Dansk A (stx) Litterær artikel Skriveportal. Litterær artikel. I en litterær artikel skal du analysere og fortolke én eller flere fiktive tekster.

Sprog og sprogundervisning. Syntaks og tegnsætning

Individer er ikke selv ansvarlige for deres livsstilssygdomme

Et oplæg til dokumentation og evaluering

Ny Forskning i Grammatik

Professionsbacheloropgaven

At positionere sig som vejleder. Vejlederuddannelsen, Skole- og dagtilbudsafdelingen, Dagens program

Vejledning og gode råd til den afsluttende synopsisopgave og eksamen

Rasmus Rønlev, ph.d.-stipendiat og cand.mag. i retorik Institut for Medier, Erkendelse og Formidling

Kvantitative og kvalitative metoder. Søren R. Frimodt-Møller, 29. oktober 2012

Dansk-historieopgave

BACHELORPROJEKT FORÅR 2018

Faglig praksis i udvikling i tysk stx

Forsøgslæreplan for græsk A - stx, marts 2014

Årsplan for engelsk 8.x SJ

Rettevejledning til skriveøvelser

Aalborg Katedralskole Masterplan for grundforløb i almen sprogforståelse

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996

Artikler

Københavns åbne Gymnasium

3.g elevernes tidsplan for eksamensforløbet i AT 2015

Afstande, skæringer og vinkler i rummet

Hvad er kreativitet? Kan man lære at være kreativ? To eksempler på kreative former for mesterlære

Læservejledning til resultater og materiale fra

Københavns åbne Gymnasium

SAMFUNDSVIDENSKABELIG METODE

Barnets sproglige miljø fra ord til mening

AKADEMISK IDÉGENERERING PERNILLE MAJ SVENDSEN & JULIE SCHMØKEL

Rita Lenstrup. Kritiske bemærkninger til artikel af Henning Bergenholtz, Helle Dam og Torben Henriksen i Hermes 5 l990, side

Appendiks 6: Universet som en matematisk struktur

Transkript:

morten gylling-jørgensen etablering af en model for diskursrelationer til annotation af danske og italienske tekster cpr. nr. xxxxxx-xxxx cand.ling.merc.-studiet vejleder: iørn korzen tolk & translatør italiensk bivejleder: matthias buch-kromann december 2009 institut for internationale handelshøjskolen i københavn (cbs) kultur- og kommunikationsstudier anslag: 78 ns (141.241 typeenheder)

riassunto in italiano realizzazione di un modello per relazioni testuali Facendo parte del progetto di ricerca The Copenhagen Dependency Treebank questa tesi cercherà di realizzare un modello per relazioni testuali per l uso di annotazione di testi danesi e italiani. Il lavoro svolto rivela soprattutto come si può realizzare un modello di facile utilizzo e come questo modello funziona in pratica. In confronto ai precedenti modelli degli studiosi linguistici della Rhetorical Structure Theory e del Penn Discourse Treebank che non circoscrivono con precisione la differenza tra le relazioni sintattiche e quelle testuali il presente modello tesi annota le relazioni interfrasali suddivendole in tipi sottotipi e connettivi/congiunzioni. Per prima esamineremo come il termine testo è stato utilizzato nel passato e rivedremo i risultati delle precedenti ricerche per sapere se vi sono osservazioni particolarmente interessanti e relazioni dal livello intrafrasale che si possono riutilizzare sul livello interfrasale. In seguito sarà presentato il corpo testuale che deriva dallo stesso corpo del progetto di ricerca soprammenzionato e che consiste di 80 testi in danese e 80 testi tradotti in italiano. Avendo trovato il metodo adatto e avendo presentato il corpo testuale prenderà luogo la realizzazione del modello spiegando le motivazioni delle scelte delle varie relazioni testuali inclusi i sottotipi i connettivi e le congiunzioni. Inoltre il modello include i principi di annotazione

di relazioni dubbiose di relazioni plurivalenti d'attribuzione e di altre costruzioni particolari. La realizzazione del modello sarà seguita da un capitolo che cercerà a spiegare come il modello funziona in pratica. Per questo motivo si includerà il corpo testuale sia in danese sia in italiano in modo da esaminare come le relazioni si manifestano nella lingua naturale. Quest analisi rivelerà che molto spesso la lingua utilizza le relazioni che esprimono l'elaborazione e la congiunzione per completare gli argomenti del testo e per far progredire la storia del testo. Inoltre sulla base dei tipi di testi scelti nei corpi si possono anche constatare parecchi esempi di relazioni causali concessive e di conseguenza con cui l autore prova a convincere il lettore dei suoi argomenti. Inoltre si vede dai risultati dell'analisi che sia in danese che in italiano i connettivi e le congiunzioni impliciti sono più frequenti rispetto a quelli espliciti il che è una delle differenze più significante tra il nostro modo di analizzare cioé nel livello interfrasale e le precedenti analisi riguardanti le relazioni testuali. Un'altra differenza sta nel fatto che i testi italiani contengono una minore quantità di relazioni rispetto ai testi danesi. La conclusione di questo risultato sarà che una discreta parte delle sequenze danesi sono state unite in una frase nelle traduzioni italiane. E' però di assai importanza che si tenga presente che la maggior parte dei testi in italiano è stata tradotta parola per parola il che da un punto di vista comparativo non fornisce i migliori criteri di confronto. Avevamo semplicemente aspettato più differenze semantiche sintattiche e pragmatiche tra le due

lingue ma siamo costretti a concludere che il miglior metodo per analizzare il testo comparativamente è stato quello di utilizzare testi paralleli. In tale modo si può esaminare meglio se per esempio si usano più sequenze subordinate in italiano che in danese. La conclusione di questa tesi sarà quindi che il modello di facile utilizzo consistente di un totale di 13 relazioni con 20 sottotipi suddivise in due gruppi cioè quelle semantiche e quelle funzionali può essere utilizzato per l'annotazione dei testi in danese e in italiano. Aumentando la quantità di testi e il genere dei testi si deve sempre tener conto che il numero di relazioni potrà allargarsi. Abbiamo anche imparato che vi sono varie somiglianze tra i fenomeni linguistici sul livello intrafrasale e su quello interfrasale ma ci sono pure delle differenze. Per avere un adeguato fondamento scientifico è oppourtuno l'utilizzo di testi simili nel contenuto e nel genere anziché testi tradotti testualmente.

indholdsfortegnelse riassunto in italiano 1 indledning 1.1 problemstilling 1 1.2 problemformulering 4 1.3 metode og empiri 5 1.3.1 fremgangsmåde 6 1.4 metodekritik 9 1.5 kilder 11 1.6 kildekritik 12 1.7 afgrænsning 13 1.8 begreber og terminologi 15 1.9 konklusion: afhandlingens struktur 18 2 teori og metode 2.1 the copenhagen dependency treebank 20 2.1.1 the dtag treebank tool 21 2.1.2 diskontinuert grammatik 23 2.2 teorier for diskursanalyse 24 2.2.1 nukleus- satellit- og listestrukturer 25 2.2.2 para- og hypotakse 26 2.3 rhetorical structure theory 27 2.4 the penn discourse treebank research group 28 2.5 andre teoretiske tilgange og opsamling 30 3 empiri 3.1 indledning 32 3.2 parole-korpus 33 3.2.1 tekstkorpora 34 3.2.2 oversættelser 36 3.3 egnet og ikke-egnet teksteksempel 38 4 diskursrelationsmodel 4.1 indledning 40 4.2 tekstrelationer 41 4.2.1 annotationsprincipper 43 4.3 semantiske satellitrelationer med undertyper 44 4.3.1 cause 45 4.3.1.1 undertype: expl(anation) 45 4.3.1.2 undertype: goal 46 4.3.1.3 undertype: reas(on) 46 4.3.2 cons(equence) 47 4.3.2.1 undertype: dir(ect) 47 4.3.2.2 undertype: prg (pragmatic) 48 4.3.3 descr(iption) 48 4.3.3.1 undertype: eval(uation) 49 4.3.3.2 undertype: qual(ification) 49 4.3.4 elab(oration) 50 4.3.4.1 undertype: exem(plification) 51 4.3.4.2 undertype: exp(ansion) 51 4.3.4.3 undertype: part(ial) 52

4.3.4.4 undertype: rest(atement) 52 4.3.5 time 53 4.3.5.1 undertype: cont(emporaneity) 54 4.3.5.2 undertype: prec(edence) 54 4.3.5.3 undertype: succ(ession) 55 4.4 semantiske satellitrelationer uden undertyper 55 4.4.1 conc(ession) 56 4.5 semantiske listerelationer med undertyper 56 4.5.1 conj(unction) 57 4.5.1.1 undertype: seq(uence) 58 4.5.2 contr(ast) 59 4.5.2.1 undertype: dir(ect) 59 4.5.2.2 undertype: prg (pragmatic) 60 4.6 semantiske listerelationer uden undertyper 61 4.6.1 disj(unction) 61 4.6.2 joint 61 4.7 illokutionære og strukturerende relationer 62 4.7.2 prepar(ation) 62 4.7.3 quest(ion) 63 4.7.3.1 undertype: probl(em) 64 4.7.3.2 undertype: query 64 4.8 forstærkende satellitter 65 4.8.1 consol(idation) 65 4.8.1.1 undertype: just(ification) 66 4.9 tvivlstilfælde og flertydige relationer 66 4.10 attribution 69 4.11 ledsætninger som helsætninger 71 5 analyse af empirisk materiale 5.1 indledning 73 5.2 generelle kommentarer 74 5.3 eksplicitte konnektorer/konjunktioner 75 5.4 implicitte konnektorer/konjunktioner 79 5.5 tvivlstilfælde 80 5.6 flertydige relationer 83 5.7 attribution 84 5.8 ledsætninger som helsætninger 85 6 komparative observationer 6.1 indledning 86 6.2 para- og hypotakse 87 6.3 ordstilling og diskursrelationer 88 6.4 perspektivering 89 7 konklusion 90 bibliografi 94 bilag 1 101 appendiks 103 den vedlagte cd-rom indeholder specialets 160 diskursannoterede tekster og fungerer på den måde som supplement til ovenstående appendiks

1 indledning 1.1 problemstilling Når vi mennesker skal kommunikere er vi nødt til at gøre kommunikationen forståelig overfor vores modtager. Det kan gøres på flere måder men når vi har med skrift og tale at gøre bør vi først og fremmest sørge for at der er en rød tråd gennem teksten eller talestrømmen. Denne røde tråd vil typisk vise sig ved at de skrevne eller talte sætninger hænger sammen altså er forbundne. I skriftsproget forbinder vi fx med konnektorer og konjunktioner mens vi i talesproget har mere frihed til ikke at markere disse forbindelsesled så tydeligt. Dette område af sprogbeskrivelsen er bl.a. behandlet indenfor retorikken men også andre discipliner har undersøgt det. I de sidste par år har vi fx set flere forskningsprojekter i syntaks og semantik der undersøgte den interne logiske sammenhæng i tekster men det er meget få universiteter der underviser i disciplinen uden at det går ind under retorik eller tekstlingvistik. Grammatikundervisningen beskæftiger sig nemlig traditionelt kun med sproglige fænomener indenfor sætningsgrænsen såsom morfologi syntaks og semantik. Men ligeså interessant det er at undersøge hvordan sproget former sig internt i sætninger ligeså interessant er det at behandle sproget på tværs af sætninger. I de sidste 5-10 år er sidstnævnte område primært blevet udforsket inden for datalingvistikken hvor resultaterne bruges til at udvikle statistiske parsere maskinoversættelsessystemer og resumeringssystemer. etablering af en model for diskursrelationer 1

Et af de mest interessante områder i denne interfrasale sprogbeskrivelse er diskurs og diskursrelationer. De fleste diskursteorier opfatter diskurs som et separat analyseniveau men det er vanskeligt at definere en klar grænse mellem diskurs og syntaks og tilsvarende mellem diskurs og morfologi. Selvom der er en høj grad af parallelitet mellem de relationer der anvendes på de tre niveauer er morfem- syntaks- og diskursrelationer markeret delvis forskelligt mht. ordstilling og fleksion. Denne hypotese findes der ingen kendte systematiske tilgange til selvom mange af de relationer der kan udtrykkes på diskursniveau også har en syntaktisk eller evt. morfologisk ækvivalent jf. Hun kom hjem. Hun var træt (diskurs) Hun kom hjem fordi hun var træt (syntaks eller diskurs?) Hun kom træt hjem (syntaks) En kritisk gennemgang af relationsinventaret på de forskellige niveauer er derfor tiltrængt. Og nærværende speciale har til formål at undersøge diskursniveauet og diskursrelationerne nærmere samt at sætte en klarere definition af de ovenstående tre niveauer. Dette kan fx gøres ved at etablere en model for diskursrelationer. På trods af den store interesse for emnet er analyse af diskurs og diskursrelationer ikke noget nemt studie hvilket nærværende speciale er et glimrende eksempel på. Man bliver konstant udsat for at skulle fortolke teksten og til tider gætte sig frem til afsenders intention med teksten. 1 En analyse af diskursrelationerne i en tekst kan derfor ikke undgå at blive stærkt subjektiv hvilket har som vi vil se gennem specialet lagt kimen til stor uenighed mellem forskerne på området samt medført en række konkrete tvivlstilfælde hvor den ene analyse er lige så god som den anden. Et andet problem ved analysen illustreres her af et hold forskerne: 1 Der vil i nærværende speciale ikke blive skelnet mellem begreberne diskurs og tekst der i denne kontekst følger Brandt et al. (1987:36) og derfor må betragtes som værende synonymer. etablering af en model for diskursrelationer 2

Developing corpora with these kinds of rich annotation is a labor-intensive effort. Building the RST Corpus involved more than a dozen people on a full or part-time basis over a one year time frame (Jan. Dec. 2000). Annotation of a single document could take anywhere from 30 minutes to several hours depending on the length and topic. Re-tagging of a large number of documents after major enhancements to the annotation guidelines was also time consuming. (Carlson et al. 2001:8) Problematikken i dette speciale angår ikke kun subjektivitet versus objektivitet og de tidskrævende analyser men også at emnet typisk behandles inden for datalingvistikken. Da jeg hverken har studeret datalingvistik eller forstår mig videre på computere er der derfor opstået udfordringer af både teknisk og begrebsmæssig karakter. Det har således været nødvendigt at konsultere dr.ling.merc. Matthias Buch-Kromann der udover at være ansvarlig for forskningsprojektet Copenhagen Dependency Treebank 2 også er yderst kompetent på det tekniske område. Inspirationen til emnet fik jeg i foråret 2009 gennem ovenstående forskningsprojekt hvor jeg som studentermedhjælper har analyseret tekster på syntaksniveau gennem et lille års tid. I projektets videreudvikling er der ligeledes blevet inddraget et morfologisk og diskursivt niveau og sidstnævnte gav mig derfor muligheden for at forske videre dels i fællesskab med stud.ling.merc. Lotte Jelsbech Knudsen og dette speciales vejleder prof. Iørn Korzen dels på egen hånd. Specielt førstnævnte samarbejde har været udslagsgivende i udarbejdelsen af metode og teori. En anden faktor der har haft betydning for valg af emne er en interesse for at videreformidle et emne der ellers har været forbeholdt datalingvister til almene lingvister primært studerende men også til andre interesserede. Jeg har derfor forsøgt gennem hele specialet at forenkle eller rettere 2 Se mere herom i kap. 2. etablering af en model for diskursrelationer 3

nedtone de tekniske processer og begreber uden at dette skulle gå ud over forståelsen for vigtigheden af disse. Dette speciale har til formål at udvikle og undersøge en model for diskursrelationer der ikke alene vil indpasse sig under de teoretiske rammer for førnævnte forskningsprojekt men også vil være anvendelig til annotation af både danske og fremmedsproglige tekster. 1.2 problemformulering Med udgangspunkt i ovenstående overvejelser har jeg udarbejdet følgende overordnende problemformulering for specialet: Hvordan kan en model for diskursrelationer til brug for annotation af danske og italienske tekster se ud og hvordan etableres en sådan model? Problemstillingen vil tage udgangspunkt i en række diskursanalyserede tekster fra det empiriske materiale jf. kap. 3. Af praktiske årsager er teksterne taget fra samme tekstkorpus som forskningsprojektets jf. 1.7. Med henblik på at belyse den meget generelle problemstilling har jeg formuleret en række delspørgsmål der tjener som uddybning og supplement til etableringen af modellen. Specialet vil først og fremmest fokusere på udviklingen af diskursrelationerne og på hvordan disse kan bruges. Det er vigtigt at relationerne er brugervenlige og gennemskuelige. Undervejs vil jeg forsøge at inddele relationerne i grupper og på den måde forklare hvad de betyder for tekstens struktur og opbygning. etablering af en model for diskursrelationer 4

Jeg har valgt at anskue diskursen bilingvistisk mellem dansk og italiensk dels for at gøre det muligt at bruge modellen komparativt dels for at kunne undersøge om relationerne på dansk adskiller sig markant fra relationerne på italiensk. Hvis der er markante forskelle på diskursen på de to sprog vil denne forskel blive forsøgt analyseret og forklaret. Yderligere har jeg valgt at undersøge begrebet diskurs og hvordan dette er defineret i forskellige teorier. Selvom min model er stærkt inspireret af tidligere modeller vil jeg forsøge at komme med en klarere definition af diskurs i tekster hvilket skal gøre modellen mere forståelig og brugervenlig. Specialet vil herefter konkret fokusere på at besvare følgende delspørgsmål der er opstået undervejs i processen og som resultat af etableringen af modellen: Hvordan defineres begrebet diskurs? I hvilke sammenhænge bruges begrebet i forbindelse med analyse af tekster og hvilke er interessante for dette speciale? Hvad siger diskursrelationerne om tekstens struktur? Hvilke relationer kunne man have forestillet sig hyppigere? Hvilke komparative forskelle er der mellem diskursen og relationerne i danske og italienske tekster? Hvordan etableres en endelig model for diskursrelationer? 1.3 metode og empiri Fundamentet for specialet er en empirisk undersøgelse hvor en række artikler nærmere bestemt 80 avis- og ugebladsartikler fra diverse danske etablering af en model for diskursrelationer 5

udgivere op gennem 1990 erne inddrages og diskursannoteres. Som udgangspunkt skulle der derfor findes en metode der var velegnet til at annotere diskursrelationerne i tekster på en ensartet måde. Med det formål at besvare delspørgsmålene har jeg valgt en kombination af den kvalitative (diskursanalyse) og den kvantitative (statistiske) metode. Der burde ikke være tvivl om hvornår der er benyttet den ene eller den anden metode men for en god ordens skyld fremgår dette af de enkelte kapitler i specialet. Eksempelvis har jeg i kap. 3 redegjort mere detaljeret for metoden ved indsamling af empiri anvendte søgekriterier samlet begrundet til- og fravalg af tekster. 1.3.1 fremgangsmåde Det første skridt var en analyse af syntaksen i teksterne. Hertil anvendte jeg softwaren DTAG og som man kan se i appendikset blev de overordnede ord typisk finitte verber i hovedsætninger fremhævet således at det blev tydeligere hvilke ord der skulle forbindes på diskursniveauet. 3 Det teoretiske grundlag for syntaksanalysen er beskrevet i kap. 2 om teori og metode. Til at besvare de første to delspørgsmål har jeg systematisk gennemgået den mest anerkendte litteratur om diskurs i tekster. Litteraturen er heldigvis nem tilgængelig både pga. at den primært er skrevet af datalingvister der gerne lægger deres artikler ud på diverse hjemmesider og fordi nogle forskere har udarbejdet bibliografier til fri afbenyttelse. 4 Gennemgangen af de forskellige teorier har til formål at belyse hvor stor forskel der er på begrebet og benyttelsen af diskurs og dermed hvor kompliceret diskursanalyse af tekster er. For en definition af 3 Grunden til at enkelte italienske tekster ikke er syntaksannoteret er forklaret i kap. 3. 4 Se fx http://www.sfu.ca/rst/05bibliographies/index.html etablering af en model for diskursrelationer 6

dette speciales brug af begrebet se 1.7 og 1.8. Desuden har gennemgangen til formål at danne fundamentet for et forslag til en model. Problemet ved denne gennemgang er selvfølgelig at det ikke er muligt at gennemgå alle tilgange til emnet og det har derfor været nødvendigt at fravælge de mindre omfangsrige samt de mindst citerede forskere. Desuden beskæftiger visse tilgange sig med diskursforskelle mellem to sprog hvoraf jeg ikke kender den ene fx engelsk og tjekkisk. 5 Disse er af sprogmæssige årsager blevet valgt fra. Specialet vil være præget af denne meget teoretiske tilgang til emnet idet selve specialets formål er at danne sin egen teori. For at komme frem til denne har jeg inddraget en større mængde empiri der skal bruges til udviklingen af modellen. Empirien vil blive brugt til at besvare de næste tre delspørgsmål der kan opfattes som specialets egentlige problemstilling. Til behandlingen af empirien er der ligesom ved de to første delspørgsmål brugt en kvalitativ metode her dog en relationsanalyse samt en kvantitativ metode for at finde frem til hyppigheden af de forskellige relationer. Den samlede empiri på de to sprog omfatter i alt 80+80 artikler fra danske avis- og ugeblade op gennem 1990 erne og stammer fra Det Danske Sprog- og Litteraturselskabs tekstkorpus KorpusDK. 6 De italienske tekster er oversættelser af de danske så sammenligningsgrundlaget er størst muligt. Der er mange måder hvorpå artiklerne kan kategoriseres; genre emne type og i kap. 2 diskuteres nogle af disse. Som hjælp til at give annotationen af teksterne den mest brugervenlige og overskuelige visualisering valgte jeg at benytte mig af softwareprogrammet DTAG der i øvrigt benyttes af førnævnte 5 Mladová et al. (2008). Denne ellers meget interessante artikel kræver desværre et kendskab til tjekkisk for at kunne forstå de konkrete komparative forskelle. Fra et metodisk synspunkt er denne såkaldte Prag Træbank ganske spændende. 6 Se yderligere information i kap. 3 og på http://ordnet.dk/korpusdk/fakta. etablering af en model for diskursrelationer 7

forskningsprojekt. Dette skyldes både at jeg allerede var bekendt med programmets funktioner samt at anvendelsen af DTAG er tidsbesparende og fleksibelt. Desuden inddrager DTAG flere lag af analysen dvs. både syntaks og diskurs (samt morfologi) og det kan udarbejde statistiske oversigter over de forskellige relationers hyppighed og i hvilke sammenhænge disse forekommer. For en nærmere beskrivelse af programmet se 2.1.1. Idet specialet skal ses som en videreudvikling eller rettere som et bidrag til førnævnte forskningsprojekt blev en stor del af fremgangsmåden for metoden udarbejdet i fællesskab med specialets vejleder og stud.ling.merc. Lotte Jelsbech Knudsen. Med det formål at udvikle en model for diskursrelationer der samlet giver et retvisende billede af en teksts diskurs fulgte vi Taboada & Manns råd om gruppearbejde: 7 Perhaps the best is for analysts to train in groups with each member analysing sets of shared texts alone and then comparing and defending (or merging) different analyses. (2006a:443) De skriver endvidere at det bedste resultat opnås ved at gå empirisk til værks hvilket for os betød at mængden af tekster systematisk blev gennemgået og diskursrelationerne blev udviklet ad hoc dvs. at relationerne blev tilpasset empirien og ikke omvendt. 8 Ved gennemlæsning og analyse af artiklerne udarbejdede vi løbende en oversigt over hvilke relationer der synes passende og over hyppigheden af disse. På denne måde kunne vi hele tiden sikre os at alle relationer fortsat blev anvendt samtidigt med at vi fik en eksempelbase der virkede som sammenligningsgrundlag for evt. tvivlstilfælde. Disse tvivlstilfælde der i 7 Samme fremgangsmåde er ligeledes benyttet af Carlson et al. (2001). 8 Herved adskiller diskursanalysen sig bl.a. fra morfologianalysen der i vores projekt har måttet anvende en anderledes fremgangsmåde bl.a. fordi man på det morfologiske niveau allerede har en række prædefinerede regler for dannelse af substantiver (Korzen & Lundquist 2003:40ff). etablering af en model for diskursrelationer 8

øvrigt forekom ret ofte kunne dermed samles til sidst i processen og analyseres på ny jf. 4.7. Analyserne har alle gennemgået en tre-trins proces der bestod af 1) en primær analyse af teksterne for at skabe overblik over relationerne 2) en sekundær gennemgang med sammenlægninger og tilføjelser af relationer 3) en endelig gennemgang af tvivlstilfælde og generelle problemstillinger vendt med vejledere. Med henblik på at belyse de sidste delspørgsmål der kan ses som resultater af etableringen af relationsmodellen og af inddragelsen af både danske og italienske tekster har jeg benyttet en kvalitativ metode hvor DTAG var meget anvendelig. Programmet kan nemt og hurtigt søge efter eksempler og forskelle på de to sprog. 1.4 metodekritik I forbindelse med læsningen af dette speciale er det nødvendigt at gøre sig klart at der findes mange indgangsvinkler til emnet og at dette speciale ikke har valgt at følge de hyppigste af disse tilgange. Det må derfor være forståeligt at litteratur og andet materiale om emnet ikke har den præcis samme synsvinkel som dette speciale. Meget af den anvendte litteratur er af denne grund benyttet mere som inspirationskilde end som egentligt teorigrundlag. Det bør også understreges at diskursanalyse i tekster per definition medfører en høj grad af subjektivitet. Det betyder helt konkret at der gennem specialet vil komme en række eksempler på tvivlstilfælde hvor brugen af en relation kan være ligeså gyldig som brugen af en anden. Det burde måske i sig selv være et aggraverende problem for analysen og dermed for metoden. Men det kan ikke gøre anderledes; fx anerkender alle nedenstående lingvister at uenighed om deres analyser ikke kan undgås jf. fx Taboada & Mann (2006a:443). etablering af en model for diskursrelationer 9

Under den indledende informationssøgning stod det klart at blandt de mange tilgange var Mann & Thompson (1988) samt The PDTB Research Group (2007) herfra benævnt PDTB 9 de mest anvendelige i denne sammenhæng. De viste sig at fungere bedst pga. deres hierarkiske opbygning deres computertekniske ligheder og deres gennemskuelighed. 10 De primære ulemper ved at benytte disse to teorier med tilhørende diskursrelationsmodeller er at de begge både beskæftiger sig med intra- og interfrasale relationer; dette speciale behandler kun interfrasale relationer. Ingen af teorierne behandler desuden det komparative aspekt og jeg har derfor måtte inddrage andre teorier til dette. Til gengæld har jeg haft stor glæde at begge teoriers metodemæssige fremgangsmåde. Som beskrevet i indledningen har jeg ikke de store computertekniske egenskaber og har derfor måttet overlade dette til andre mere egnede personer. Softwaren DTAG er ligesom modellen for diskursrelationer et program der udvikles og tilpasses løbende i processen. Det er i sig selv en stor fordel men kan også give en del tekniske problemer hvilket jeg har oplevet undervejs. Jeg er dog overbevist om at programmet i sin videre udvikling er et af de bedste bud på en nem tilgang til annotationen. Man kunne sikkert have anvendt andre analysemodeller end den der er blevet valgt til dette speciale. Først og fremmest kunne man på forhånd have dannet en diskursmodel med relationer og så derefter have afprøvet denne i praksis. Det har dog for mig virket mest logisk at gøre det omvendt via en induktiv metode. 9 I bibliografien henvises der til artiklerne af Prasad et al. (2006 2007 2008). 10 Se mere herom i kap. 2 etablering af en model for diskursrelationer 10

Sammenfattende understreges det hermed pga. mangel på foregående undersøgelser der kunne bruges som model at de anvendte metoder er udarbejdet af specialets forfatter. 1.5 kilder Jeg har gjort brug af flere typer kilder til udarbejdelsen af dette speciale. Først og fremmest har det været nødvendigt at få den tekniske side af specialet på plads mht. DTAG. Dette er gjort via diverse manualer men også gennem det teoretiske grundlag i Buch-Kromanns Discontinuous Grammar (2006) se 2.1.2. På det syntaktiske niveau er der dog taget forbehold for at teorien er lavet ud fra engelsk og dansk grammatik og det har derfor været nødvendigt at tilpasse visse funktioner og relationer til italiensk jf. Bilag 1 p. 101. Ændringerne er udført i samarbejde med teoriens forfatter således at disse overholder de teoretiske rammer. Det teoretiske grundlag for diskursanalyse af teksterne blev primært fundet i Mann & Thompson (1988) der med deres Rhetorical Structure Theory (RST) må anses som nogle af pionererne inden for området. Det viste sig frugtbart at kombinere denne ældre teori med den nyere fra PDTB (2006) der både teknisk minder mere om DTAG og teoretisk virker mere anvendelig med RST. Fordelen ved begge disse teorier er at de på samme måde som dette speciale har udviklet deres relationer undervejs. På den måde indeholder deres artikler ikke kun resultaterne af processen men også de metodiske overvejelser. Flere af de andre kilder som er anvendt i specialet har fundet deres teoretiske grundlag i netop disse tilgange. Disse kilder har derfor været brug til perspektivering og til at se kritisk på ovenstående teoriers fordele og ulemper. Desuden har jeg bevidst fundet flere komparative diskursanalyser selvom nogle af disse svært sammenlignelige med en etablering af en model for diskursrelationer 11

dansk-italiensk problemstilling. Dette er gjort primært af metodiske overvejelser. En anden nyere tilgang til diskurs giver Wolf & Gibson (2005) der specielt er blevet anvendt til de kvantitative analyser. Teorien bygger primært på Hobbs (1985) der har været brugt som en indføring i emnet diskurs. En induktion der ellers er svært at finde uden at den specifikt er henvendt til datalingvister. 1.6 kildekritik Manglen på en kort indføring har i kombination med mange kilders vage definitioner af diskurs betydet at jeg vise steder har måttet føle mig frem og til dels selv måttet udarbejde begreber og definitioner. Det har også været en svaghed at dette speciale behandler relationer mellem helsætninger mens kilderne har behandlet relationer mellem fx hel- og ledsætninger der ifølge definitionerne i 1.8 hører til under syntaks. Det har derfor været nødvendigt at holde et højt niveau for kritik af kilder hvilket bl.a. har resulteret i at kun et meget lille antal af relationer er blevet overført til vores model. Det problematiske i forbindelse med dette er at fx PDTB og RST har haft et empiriske materiale der var op til 100 gange så stort som vores de havde flere til at analysere dvs. annotatorer og større økonomisk rådighed. Det betyder følgelig at deres relationer må betegnes som mere utømmelige og dækkende indenfor deres område. Det største problem ved den ellers store mængde litteratur er at dens intenderede modtager må betegnes som datalingvister eller personer med et stort kendskab til computerbaserede sprogbehandlingsprogrammer. Mange artikler bruger mere plads på at beskrive tekniske forkortelser for relationer end relationernes egentlige funktioner fx Webber 2004. etablering af en model for diskursrelationer 12

Samtidig er der stor uenig om hvilken visuel brugerflade der er bedst jf. Taboada & Mann 2006b. De fleste teorier behandler kun diskursrelationer inden for engelske tekster og jeg har ikke fundet meget litteratur som behandler relationerne på dansk udover Skytte & Korzen (2000ab) der tilmed også inkluderer italiensk. Modsat dette speciale består deres empiri dog af paralleltekster. En anden god kilde på dansk er Togeby der beskriver konnektionerne som semantiske forløbsrelationer mellem tekstens segmenter der udtrykkes eksplicit ved konnektorer dvs. konjunktioner og visse adverbialer (1993:534). Fordelen ved den manglede litteratur på dansk må være at specialet kommer til at fungere som en form for grundforskning eller pilotprojekt og at det på den måde kommer til at udfylde et lingvistisk videnshul. Specialet skal derfor først og fremmest ses som et forslag til en model for diskursrelationer der ikke er endelig men blot er et eksempel på dels hvordan man kan etablere en sådan model dels på hvordan modellen fungerer i praksis. Et godt eksempel på hvor bredt og besværligt emnet diskurs er ses ved at de fleste artikler inden for emnet handler om et underemne relateret til diskursen. Det kan fx være anaforer mentale rumåbnere tema-rema kohærens under- og sideordning for- og baggrund etc. (Givón 2001 Hopper 1979 Korzen & Lundquist 2003:140ff Longacre 1985) Dette speciale vil på samme måde begrænse sit omfang og kun inddrage de for problemstillingen relevante underemner. 1.7 afgrænsning Diskurs er som antydet i indledningen mange ting. Udover den almene poststrukturalistiske tilgang som oftest finder anvendelse inden for samfundsvidenskab og humaniora med henvisninger til Saussure Lévi- etablering af en model for diskursrelationer 13

Strauss Gramsci og Foucault findes der en tilsvarende lingvistisk tilgang som dette speciale vil tage sit udgangspunkt i. Specialet vil derfor kun behandle diskurs ud fra et lingvistik synspunkt. På samme måde afgrænser afhandlingen sit omfang til at beskæftige sig monomedialt med det skrevne sprog og ikke det talte. Det sker ikke fordi det talte sprog er uinteressant eller inkompatibelt med diskursanalyse. Tværtimod. Blot er jeg overbevist om at diskursen er mere sammenhængende i det skrevne sprog og at en diskursrelationsanalyse af skriftsprog er nemmere end af det talte sprog. 11 Grundet at dette forsøg på at etablere en model for diskursrelationer er mine første studier i diskurs har jeg valgt den umiddelbare letteste tilgang sml. Skytte & Korzen (2000b:642). 12 Inden for diskursteorien taler man om at jo større empiri jo større korrekthed og der skal heller ikke herske tvivl om at jeg hvis jeg på en saglig og forsvarlig måde havde kunnet inden for specialets tids- og omfangsmæssige begrænsninger gerne ville have inddraget et større empirisk materiale. Men efter rådgivning af bivejleder Matthias Buch- Kromann endte jeg med 80 tekster der således skulle give et retvisende billede af hvilke typer relationer man oftest finder i tekster. Jeg havde også muligheden for at inddrage flere forskellige typer tekster. Fordelen ved min empiri er dog at teksterne er homogene og sammenligningsgrundlaget er derfor stort. Der er en vis forskel på teksternes genre men det kunne naturligvis have været spændende at se på en mængde helt forskellige teksttyper. 11 For en analyse af diskursrelationer i talt sprog se Berretta (1984) Fox (1987) og Tomlin (1985 1987). 12 I empirien findes eksempler på dialoger fx 0602 der dog ikke kan betragtes som talt sprog idet disse stammer fra oprindeligt skrevne tekster og ikke transskriberede tekster. Interessant er det dog at se hvor besværlige netop disse tekster har været at diskursannotere jf. kap. 5. etablering af en model for diskursrelationer 14

Den komparative perspektivering er inddraget både for at dette speciale kunne indgå i førnævnte forskningsprojekts teoretiske ramme og for at kunne påvise diskursive forskelle mellem dansk og italiensk. Grunden til at den komparative analyse ikke fylder mere i afhandlingen er at de italienske tekster viste sig som meget tekstnære oversættelser af de danske originaltekster. Oprindeligt havde jeg håbet på at specialets primære problemstilling skulle være en komparativ analyse af diskursrelationerne i danske og italienske tekster men det viste sig undervejs for uinteressant da diskursrelationerne med få undtagelser var næsten identiske. Til dette formål ville paralleltekster uden tvivl have virket bedre jf. kap 5.. Førnævnte forskningsprojekt omfatter også udviklingen af en oversættelsesmaskine hvortil programmet DTAG også bruges. Det kunne have været relevant at inddrage denne del der ord for ord sammenligner originalteksten med den pågældende oversættelse men grundet ovenstående årsager har dette ikke vist sig videre interessant i denne sammenhæng. Et eksempel på denne sammenligning kaldet alignment ses i 3.2.2. Projektet inddrager ligeledes det nederste niveau for tekstanalyse morfologi og heller ikke dette har fundet plads inden for specialets afgrænsning. 1.8 begreber og terminologi Med henblik på en bedre forståelse af specialet vil der i følgende blive uddybet nogle af mest centrale begreber for analysen af diskursrelationer. De fleste begreber stammer fra datalingvistikken men jeg har ligeledes valgt som beskrevet i foregående afsnit at definere afhandlingens mest anvendte begreber så disse også er forståelige for almene lingvister. Begrebsterminologien minder meget om både RST og PDTB men det understreges at visse definitionerne ikke er de samme. etablering af en model for diskursrelationer 15

Annotation: datalingvistisk udtryk for visualiseringen af den grammatiske analyse af tekster. Kan visualiseres på flere måder og tilføjer information om en teksts lingvistiske form. En samling af annoterede tekster betegnes som et træbank. Begrebet kan bruges for alle sproglige niveauer; morfologi syntaks diskurs osv. Herunder ses et simpelt eksempel hvor pilene skal forstås som annotationen af sætningen: Attribution: angivelse af ophavsmand/-kvinde til en replik tanke mening forhåbning osv. fx han sagde ; mente hun; Ole råbte. Her er der ikke tale om en egentlig diskursrelation men en slags tilføjelse/modifikator som angiver hvem der har sagt/ tænkt/ment/håbet noget. Dependens: refererer til den grammatiske teori hvori et ord eller et led i en syntaksgruppe fremstilles som styrende mens de øvrige ord eller led optræder som afhængige eller dependente. I følgende eksempel på en træstruktur over sætningen "en dreng ser en lille fugl" er verbet det styrende ord i sætningen og substantivet det styrende i substantivgruppen (jf. Webber & Joshi 1998 Webber 2006): Diskurs: den gængse betegnelse er en sammenhængende kæde af udsagn fx i samtaler fortællinger udredninger argumenter og taler. I dette speciale følger definitionen dog Brandt et al. (1987:36) der opfatter diskurs og tekst som synonymer. etablering af en model for diskursrelationer 16

Kerneled: udgangspunkt for den syntaktiske analyse i en periode. I overensstemmelse med valensteorien er det finitte verbum typisk kerneleddet på det syntaktiske niveau. Markeres med fed som herunder: Konnektor/konjunktion: forbindelsesled der siger noget om en teksts logiske relation mellem helsætninger afsnit og perioder. De viderefører ekspliciterer forklarer årsag-virkning vender (= kontrasterer) modificerer distribuerer eller opsamler den forrige periodes indhold. Kan være implicitte eller eksplicitte på tværs af perioder. Periode: sætning der har funktion af en tekst dvs. at de skal have et selvstændigt semantisk indhold og selvstændig pragmatisk/illokutionær funktion. (Retorisk) relation: er en bestemmelse af en periode i forhold til en anden periode fx Ole kommer ikke i dag. Han er syg. Relationen kan bestemmes ved at indsætte konnektoren fordi mellem de to tekstualiserede enheder. Relationen mellem de to perioder bliver dermed en årsag. Kaldes også kognitive relationer. Træbank: korpus med fx dependensopmærkede (lingvistisk annoterede) tekster. Har til formål at kunne bruges af almene lingvister i deres korpuslingvistisk baserede grundforskning samt af datalingvistiske forskere og virksomheder til at udvikle sprogteknologiske applikationer vha. træbanksbaserede maskinindlæringsmetoder. etablering af en model for diskursrelationer 17

1.9 konklusion: afhandlingens struktur Her følger en karakteristik af specialets struktur med en oversigt over de forskellige kapitler deres indhold og formål. Specialet er inddelt i 7 kapitler der er underdelt i afsnit. Kapitel 1 indeholder indledningen problemformuleringen det overordnede metodiske design og fremgangsmåde samt kritik af denne kilder og kildekritik afgrænsning definition af relevante begreber samt nærværende disposition over specialet. Kapitel 2 er en beskrivelse diskussion og præsentation af specialets teoretiske og forskningsmæssige udgangspunkt The Copenhagen Dependency Treebank Project og Diskontinuert Grammatik. Kapitlet er essentielt for forståelsen af de følgende kapitler idet den også behandler de anerkendte diskursteorier udviklet af RST og PDBT samt deres forslag til relationsmodeller. Desuden gennemgås et par andre interessante diskursteorier. Formålet med kapitlet er at illustrere den metodiske fremgangsmåde det teoretiske udgangspunkt samt det anvendte layout og design med henblik på en bedre forståelse af selve etableringen af relationsmodellen. Kapitel 3 forklarer det empiriske arbejde der er udgangspunktet for analyserne. Samtidig præsenteres en oversigt over samtidige artikler og deres oversættelser. Formålet er at redegøre for udvælgelses- og søgekriterierne for teksterne i det anvendte korpus samt at præsentere empirien. Kapitlet indeholder ligeledes en oversigt over empirien og de tre korpora. Kapitel 4 indeholder det metodiske arbejde i forbindelse med etableringen af relationsmodellen. Her vil de to foregående kapitlers indhold dvs. det teoretiske udgangspunkt og empirien danne grundlag for en diskursiv gennemgang af det empiriske materiales relationer. Kapitlet indeholder desuden en diskussion af hvilke problemer der opstod i løbet af processen og mulige løsninger på disse. Undervejs præsenteres den etablering af en model for diskursrelationer 18

foreløbige endelige model for diskursrelationer med tilhørende funktioner og kommander i henhold til den praktiske brug. I kapitel 5 behandles de i indledningen naturligt affødte delspørgsmål af etablering af modellen. Kapitlet indeholder samtidig en komplet oversigt over relationernes hyppighed og frekvens inddelt i over- og undertyper samt konnektorer/konjunktioner. Der vil blive diskuteret hvilke praktiske funktioner modellen kan have for lingvister i forskningsarbejde. Kapitel 6 er dedikeret det komparative aspekt ved diskursrelationer. Her vil de italienske tekster blive inddraget og delspørgsmålene om der forekommer markante diskursive forskelle mellem de danske originaltekster og de italienske oversættelsers relationer vil blive besvaret. Kapitel 7 vil afslutningsvis i tæt sammenhæng med problemformuleringens oplæg og på baggrund af analyserne i kapitel 5 og 6 konkludere hvordan man kan etablere en model for diskursrelationer i tekster på dansk og italiensk samt hvordan en sådan model kan virke i praksis. Appendikset til specialet indeholder en oversigt over eksempler citeret undervejs i specialet. En komplet oversigt over alle annotationerne findes på den vedlagte cd-rom. etablering af en model for diskursrelationer 19

2 teori og metode 2.1 the copenhagen dependency treebank I dette afsnit vil forskningsprojektet Copenhagen Dependency Treebank (CDT) kort blive præsenteret idet det har fungeret som specialets inspirations- og metodemæssige fundament. CDT er et igangværende forskningsprojekt hvor forskere fra CBS to erhvervssproglige institutter Institut for Internationale Sprogstudier og Vidensteknologi og Institut for Internationale Kultur- og Kommunikationsstudier arbejder på at etablere en parallel træbank for dansk engelsk tysk italiensk og spanske tekster. Hvert af de tre sidstnævnte sprog omfatter 40.000 ord fordelt på tekster á 150-250 tekstsegmenter. Disse træbanker er en videreudvikling af den 100.000 ord store dansk-engelske parallelle Danish Dependency Treebank (Kromann 2003 Buch-Kromann et al. 2007). I overensstemmelse med den oprindelige dansk-engelske træbank er de nye flersproglige træbanker baseret på de teoretiske principper om dependensgrammatik præsenteret i Discontinuous Grammar (Buch-Kromann 2006) hvilket beskrives nærmere nedenfor. De nye træbanker adskiller sig fra den oprindelige både ved at være flersproglige og ved at inddrage flere niveauer af grammatisk analyse (annotation) dvs. udover syntaks annoteres morfologi diskursstruktur anaforer og et langt finere inventar af adverbielle relationer. Det empiriske materiale stammer fra det Danske Sprog- og Litteraturselskabs frit tilgængelige tekstkorpus KorpusDK (tidl. PAROLEkorpus) (Keson & Norling-Christensen 1998) og består af en blanding af etablering af en model for diskursrelationer 20

tekster fra forskellige kilder. De danske tekster er efterfølgende blevet oversat af professionelle oversættere. 13 2.1.1 the dtag treebank tool Softwaren DTAG er et analyseprogram til brug for lingvistiske studier. Det kan bruges til at etablere ændre og søge i dependensannoterede tekster. DTAG udvikles af brugeren i løbet af analyserne således at brugeren altid kan tilføje og slette funktioner og kommandoer. DTAG blev oprindeligt udviklet til the Danish Dependency Treebank og træbankens brugerflade blev udformet igennem DTAG. Programmet kan håndtere enhver form for syntaktisk graf der består af tekstsegmenter som forbindes med pile. Tekstsegmenterne kan bestå af ord morfemer interpunktionstegn eller fillers (fonetiske tomme pladser) der endvidere er nummererede og angivet med ordklasse eller funktion under tekstlinjen. Det falder uden for dette speciales rammer at forklare den tekniske og kommandomæssige side af DTAG og der vil i det følgende blot forklares hvordan visualiseringen af DTAGs grafer dvs. dependensanalyse skal læses og forstås. 14 Dependenspile dvs. de pile der løber over og under tekstlinjen går fra det styrende led også kaldet kerneleddet A til de(t) styrede led også kaldet de(t) afhængige eller dependente led B. B-leddets syntaktiske funktion i forhold til A-leddet noteres således at man med udgangspunkt i pilehovedet kan læse: B (som pilen peger på) fungerer som [den syntaktiske funktion man har noteret] for A (hvor pilen starter). En oversigt over de vigtigste syntaktiske funktioner findes i Tabel 1. 13 Læs mere om det empiriske materiale og udvælgelsen heraf i kap. 3. 14 En lignende software (D-LTAG) anvendes af PDTB se fx Webber & Joshi 1998 Webber 2004 2006. etablering af en model for diskursrelationer 21

KOMPLEMENTÆRRELATIONER nobj nominalobjekt: For barnet nobj subj subjekt: De subj så mig dobj ADJUNKTRELATIONER pnct tegnsætning: Lei subj viene! pnct attrr restriktiv attributiv: (ej dk) la scelta nobj difficile attrr vobj verbalobjekt: Han subj har sagt vobj det dobj dobj direkte objekt: Han subj forlod os dobj pobj præpositionsobjekt: en af pobj dem nobj preds prædikativ til subjekt: Huset subj er rødt preds lobj lokativobjekt: Pietro subj bor i lobj Rome nobj qobj attributionsobjekt: Han subj sagde: pnct Nej qobj pnct expl ekspletivt: Der expl er opstået vobj et dobj problem conj konjunkt: Gianni e coord Luca conj coord koordinator: Tè o coord caffè conj? pnct attrd deskriptiv attributiv: la bianca attrd neve nobj time tidsadverbial: Arrivamo stasera time loc stedsadverbial: Sono subj caduto qui loc man mådesadverbial: Io subj vado piano man degr gradsadverbial: molto degr difficile nobj predo objekt til prædikativ: Vi subj fandt det dobj kedeligt predo iobj indirekte objekt: Vi subj gav ham iobj blomster dobj avobj adverbialobjekt: som før avobj neg negation: Lui subj non neg viene namef fornavn: Franco namef Rossi relr restriktiv relativ bisætning: il nobj gatto nobj che subj morì relr part verbalpartikel: slå op part appr restriktiv apposition: il nobj genio nobj Einstein appr appa parentetisk apposition: Einstein il appa genio nobj list listesekvens: Rossi Milano list Tabel 1: De almindeligste syntaktiske funktioner i DTAG (Frit gengivet efter Buch-Kromann et al.. under udg.) etablering af en model for diskursrelationer 22

Et eksempel på hvordan funktionerne og dermed annotationen visualiseres i DTAG ses herunder hvor råbte er kerneleddet A mens han er det dependente led som udfylder en subjektsfunktion i forhold til kerneleddet. DTAG kan endvidere vise graferne komparativt således at det er muligt at sammenligne oversættelsen med originalteksten. Det kræver dog at oversættelsen er temmelig ordret oversat. Herunder ses en komplet annotation hvor både det morfologiske syntaktiske og diskursive niveau er inkluderet. Desuden ses den komparative alignment mellem de to sprog. 2.1.2 diskontinuert grammatik Ovenstående analyse er baseret på Buch-Kromanns dependensteori om diskontinuert grammatik (2006) der er en datalingvistisk dependensbaseret syntaksformalisme primært inspireret af Word Grammar etablering af en model for diskursrelationer 23

(Hudson 2003). Teorien argumenterer for at en grammatik ikke blot skal skelne mellem grammatiske og ugrammatiske lingvistiske analyser men at den skal tilknytte en 'omkostning' til de enkelte ord i både grammatiske og ugrammatiske analyser (Buch-Kromann 2006:395). Således kan man med disse 'omkostninger' måle de enkelte ords syntaktiske semantiske og pragmatiske velformethed og på den måde præcist lokalisere lingvistiske fejl i analysen. Parsing generering og maskinoversættelse kan dermed opfattes som optimeringsproblemer hvor det gælder om at finde den billigst mulige analyse der opfylder en given bibetingelse - fx. at analysen svarer til en given tekst (parsing) semantisk repræsentation (generering) eller kildetekst (oversættelse). Formalismen håndterer en lang række lingvistiske fænomener herunder komplementer og adjunkter; diskontinuerte ordstillinger og flytningsrestriktioner; relative og parasitiske gaps; elliptiske koordinationer; anaforer og diskursstruktur; tegnsætning samt bøjnings- og definitionsmorfologi (idem). 2.2 teorier for diskursanalyse Vi fortsætter nu med at nærme os et endeligt valg af teori ved at se på de allerede udviklede teorier og de foregående sammenlignelige studier af diskursstrukturen i tekster. Vi starter med at se på de mere specifikke diskursteorier fra Mann & Thompson PDTB 15 Wolf & Gibson Fox m.fl. og derefter på den alment anvendelige teori om nukleus-satellit- og listestrukturer. Følgende afsnit har til formål at give læseren en bedre forståelse for hvad diskursanalyse af tekster i denne konkrete sammenhæng skal forstås som. Idet cand.ling.merc.-studiet normalt ikke behandler diskurs som disciplin på linje med fx morfologi semantik og syntaks men nærmere som en underdisciplin til tekstlingvistik vil jeg her præsentere en kort indføring 15 Jf. henvisningerne i 1.4. etablering af en model for diskursrelationer 24

til emnet ved at benytte de i studiesammenhængen kendte og relaterede begreber. 2.2.1 nukleus satellit og listestrukturer Vi vil i nærværende sammenhæng definere en tekst som en sproglig udtrykssekvens kendetegnet ved semantisk pragmatisk og illokutionær kohærens (Korzen 2002:136). I en tekst spiller de enkelte perioder ikke nødvendigvis den samme rolle internt i teksten men de kan have en overeller underordnet semantisk-retorisk funktion i forhold til tekstens samlede budskab og formål uden nødvendigvis at være mere eller mindre pragmatisk betydningsfulde i sammenhængen (Fox 1987:78). 16 Elementerne i de enkelte semantisk-pragmatiske enheder dvs. perioderne vil derfor oftest tillægges indbyrdes forskellig betydning og relevans alt afhængigt af den kognitive perception og den mentale repræsentation af det ekstralingvistiske forhold. Elementerne kan også spille forskellige roller i det makropropositionelle tema. Der kan være tale om en central periode der står klarest for eller udtrykker enhedens samlede indhold. Hertil kan være tilknyttet underordnede perioder med uddybende information om baggrunden eller andre omstændigheder fx om tid sted årsag betingelser konsekvenser følger. I sådanne tilfælde kaldes den centrale periode for nukleus og de underordnede perioder for satellitter. Strukturen kaldes derfor for en nukleus-satellit-struktur (Matthiessen & Thompson 1988:289). I andre tilfælde består en semantisk-pragmatisk enhed af perioder der ikke er underordnet hinanden men der er retorisk sidestillede. Her taler man om listestrukturer (idem). Og det er netop med udgangspunkt i disse betegnelser for relationer mellem perioder at dette speciale vil etablere sin model for diskursrelationer. 16 For en definition af periode se 1.8 etablering af en model for diskursrelationer 25

2.2.2 para- og hypotakse Det skal understreges at nedenstående anvendte begreber normalt benyttes på det syntaktiske niveau altså internt i sætninger men dette speciale har bl.a. til formål at vise at begreberne også egner sig til at blive benyttet på det interfrasale niveau altså uden for eller på tværs af sætningsrammen. Forholdene mellem forskellige perioder i tekster kan være para- eller hypotaktiske også kaldet side- eller underordnede. I en narrativ tekst defineres parataktiske perioder oftest som forskellige på hinanden følgende narrative enheder (Hopper & Tragott 1993:169f). Perioderne forekommer altså i samme kronologiske orden som de handlinger de gengiver. Normalt er disse afhængige af den foregående periodes afslutning. Et eksempel på paratakse ses herunder: Peter kørte galt. Men han kom ikke noget til. Her fremgår det klart at 1) der er en interfrasal retorisk relation mellem de to perioder (der er ekspliceret ved men 2) den første periode er kronologisk forudgående for den efterfølgende periode samt 3) den sidste periode er afhængig af den første men ville godt kunne fungere som selvstændig periode. 17 På samme måde taler man om hypotaktiske perioder i tilfælde som: Fisk er sundt. Derfor spiser jeg det ofte. Her kan den første periode fungere selvstændigt som en kommunikativ enhed mens den sidste vil være uforståelig uden sætningen inden. Den retoriske relation vil i dette tilfælde være en konsekvens ekspliceret ved det kausale adverbial derfor. Kortmann (1997:210) har påvist at der i de europæiske sprog hyppigst forekommer tids- steds- og 17 Hvis man ser bort fra det anaforiske "han". etablering af en model for diskursrelationer 26