Diskursrelationer
Diskursrelationer Diskurs = sammenhæng af udsagn, idéer, definitioner e.l. som udgør kernen i fx en samtale el. et ræsonnement; (DDO)
Diskursrelationer Diskurs = sammenhæng af udsagn, idéer, definitioner e.l. som udgør kernen i fx en samtale el. et ræsonnement; (DDO) Korpus = spr.(elektronisk) samling af tekster der bruges til sproglige el. litterære undersøgelser; (DDO)
Diskursrelationer Koncept: At kunne finde tekster med en form for relation i vilkårligt store tekstsamlinger.
Diskursrelationer Koncept: At kunne finde tekster med en form for relation i vilkårligt store tekstsamlinger. Diskursrelationer viser sig ofte ved markører i teksten, f.eks. Kontrast men Drengen var glad. Men nu græder han.
Diskursrelationer Koncept: At kunne finde tekster med en form for relation i vilkårligt store tekstsamlinger. Diskursrelationer viser sig ofte ved markører i teksten, f.eks. Kontrast men Drengen var glad. Men nu græder han. Forklaring fordi/eftersom Drengen græder, fordi sneen er smeltet.
Diskursrelationer Koncept: At kunne finde tekster med en form for relation i vilkårligt store tekstsamlinger. Diskursrelationer viser sig ofte ved markører i teksten, f.eks. Kontrast men Drengen var glad. Men nu græder han. Forklaring fordi/eftersom Drengen græder, fordi sneen er smeltet. Forudsætning hvis, så Hvis sneen skal blive liggende, så skal det være koldere, end det er nu.
Hvad så når der ikke er nogen markører i en tekst? Behov for vidensbaser med generel viden så flere relationer kan bruges
Hvad så når der ikke er nogen markører i en tekst? Behov for vidensbaser med generel viden så flere relationer kan bruges F.eks.: Om vinteren er det koldt. Det er varmt nu.
Hvad så når der ikke er nogen markører i en tekst? Behov for vidensbaser med generel viden så flere relationer kan bruges F.eks.: Om vinteren er det koldt. Det er varmt nu. Ikke tilgængeligt (endnu...)
Hvad så når der ikke er nogen markører i en tekst? Behov for vidensbaser med generel viden så flere relationer kan bruges F.eks.: Om vinteren er det koldt. Det er varmt nu. Ikke tilgængeligt (endnu...) Wordnets definerer ikke alle potentielle relationer
Hvad så når der ikke er nogen markører i en tekst? Behov for vidensbaser med generel viden så flere relationer kan bruges F.eks.: Om vinteren er det koldt. Det er varmt nu. Ikke tilgængeligt (endnu...) Wordnets definerer ikke alle potentielle relationer Og slet ikke alle tænkelige antonymirelationer
Marcu & Echihabis hypotese: Lexical item pairs can provide clues about the discourse relations that hold between the text spans in which the lexical items occur. (p. 5)
Hvad gør man så? Behov for at definere relationer i tekster
Hvad gør man så? Først skal man definere relationer i og mellem tekster Mange har lavet forskellige definitioner
Hvad gør man så? Behov for at definere relationer i tekster Mange har lavet forskellige definitioner Marcu & Enchihabi forener flere sæt af definitioner ud fra nogle fælles træk
Hvad gør man så? Behov for at definere relationer i tekster Mange har lavet forskellige definitioner Marcu & Enchihabi forener flere sæt af definitioner ud fra nogle fælles træk Behov for at træningsmateriale med oplagte eksempler på de forskellige diskursrelationer
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although 2 Cause-explanation-evidence because, thus
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although 2 Cause-explanation-evidence because, thus 3 Condition If, then
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although 2 Cause-explanation-evidence because, thus 3 Condition If, then 4 Elaboration for example, which
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although 2 Cause-explanation-evidence because, thus 3 Condition If, then 4 Elaboration for example, which 5 No relation, same text 2 vilkårlige sætninger fra samme tekst adskilt af mindst 3 sætninger
Diskursrelationer Marcu & Echihabis diskursrelationer og typiske markører: 1 Contrast but, although 2 Cause-explanation-evidence because, thus 3 Condition If, then 4 Elaboration for example, which 5 No relation, same text 2 vilkårlige sætninger fra samme tekst adskilt af mindst 3 sætninger 6 No relation, different texts 2 vilkårlige sætninger fra to forskellige tekster
Marcu & Echihabis forsøg For hver af de 15 mulige kombinationer af diskursrelationer (r a,r b ) trænes en classifier på et korpus uden markører
Marcu & Echihabis forsøg For hver af de 15 mulige kombinationer af diskursrelationer (r a,r b ) trænes en classifier på et korpus uden markører De 15 classifiere testes nu på 5000 eksempler på diskursrelation r a og 5000 eksempler på r b
Marcu & Echihabis forsøg For hver af de 15 mulige kombinationer af diskursrelationer (r a,r b ) trænes en classifier på et korpus uden markører De 15 classifiere testes nu på 5000 eksempler på diskursrelation r a og 5000 eksempler på r b Hvis forsøget går godt, vil classifierne være mere nøjagtige end de 50% som er udgngspunktet
Resultat Højere præcision i opmærkningen end udgangspunktet i to forskellige korpura
Resultat Højere præcision i opmærkningen end udgangspunktet i to forskellige korpura Cause-explanation-evidence vs. Elaborationclassifieren har en nøjagtighed på 93%
Resultat Contrast vs. Elaboration-classifieren viser sig at kunne forbedre et RST (Rhetorical Structure Theory) opmærket korpus med 77%, da den type opmærkning ikke ellers muliggør opmækning af kontrast-relationer uden markeringsord
Resultat Contrast vs. Elaboration-classifieren viser sig at kunne forbedre et RST (Rhetorical Structure Theory) opmærket korpus med 77%, da den type opmærkning ikke ellers muliggør opmækning af kontrast-relationer uden markeringsord Jo større træningskorpus, desto større nøjagtighed for classifieren (se fig. 1)
Hvad kan det så bruges til? Mulighed for at resumere dokumenter Udvælge relevante dokumenter fra en arbitrært stor samling Avancerede question-answering-systemer Duer kun til machine learning. Ikke specielt interessant for lingvister som sådan