Sproglige problemstillinger ved informationssøgning Patrizia Paggio Center for Sprogteknologi Københavns Universitet patrizia@cst.dk
Disposition Søgemaskiner i dag: nogle problemer Nogle krav til fremtidig søgning Fra ord til begreber Øvelser 2
Søgemaskiner i dag er ordbaserede De finder de tekster der indeholder lige præcis søgeordene. Brugeren skal gætte hvilke søgeord der er bedst. er effektive De håndterer store mængder uhomogene og ustrukturerede tekster. 3
Problemer: ord i sammenhæng Et ord kan have forskellige former og optræde i et kompositum vitaminmangel / mangel på vitamin / mangel på vitaminer Sammenhængen har betydning Rom i dansk maleri 4
Problemer: ord og begreber Et begreb kan udtrykkes ved forskellige ord (termer) Forskellige søgeord: ekspert/ikke-ekspert Medicin: skæv ryg, skoliose Botanik: nerie, nerium oleander Forskellige strategier: generel/specifik Ernæring: vitamin, vitaminmangel, vitaminmangelsygdom, beriberi. 5
Problemer: flertydighed Ord kan betyde flere ting. Ca. 25 % af alle ord der søges på er flertydige Ca. 10 % af alle navne der søges på er flertydige 6
Problemer: flertydighed (2) Homonymi (urelateret sammenfald) a) hoppe verbum / substantiv b) pande hoveddel / køkkenredskab Polysemi (relateret sammenfald) c) mus dyr / styreredskab til computer Proprier (refererer til forskellige ting) d) Java ø / kaffemærke / programmeringssprog 7
Altid tekster? Når vi søger information, er det ikke altid tekster vi gerne vil have. Hvad er email-adresserne på forskerne på KUA? Kan man få et svar på KUA s hjemmeside? søg KUA 8
Altid tekster? (2) Det ideelle svar kunne se cirka sådan ud: Navn Stilling E-mail Institut Carsten Elbro Professor ce@cphling.dk IAAS Elisabeth Engberg- Pedersen Lektor ep@cphling.dk IAAS Michael Fortescue Professor mf@cphling.dk IAAS 9
Tre krav til søgeteknologi Genkende forskellige former af samme ord (forskellige endelser, komposita) De skal blive bedre til at forstå ord i sammenhæng (syntaktisk kontekst) De skal forstå begreberne bagved ordene (synonymer, generelle og specifikke begreber) 10
Ord og begreber - traditionelt Fx: kop Definition: lille skåleformet el. cylindrisk beholder til at drikke af, typisk med hank og brugt sammen med en dertil hørende underkop til varme drikke (Den Danske Ordbog) Brugseksempel: kvinden stiller to kopper på bordet, forsvinder ind i stuens mørke og kommer tilbage med kaffe 11
Ord og begreber - sprogteknologisk Formaliseret fx i et ordnet: indeholde used-for beholder isa drikke-af used-for kop contains drikkevare hank part-of tekop isa contains te isa 12
Begrebshierarkier Stab Administrativ Lærerstab Forsker Assistent Professor Lektor Seniorforsker 13
Fra begreber til instanser Ansat arg1 arg2 Seniorforsker: Patrizia Paggio Center: CST e-mail URL patrizia@cst.dk www.cst.dk 14
Øvelse 1: flertydighed Læs alle korpuseksemplerne fra Berlinske Korpus igennem. Hvor mange betydninger er i spil? (marker, 1, 2..) Hvilken slags flertydighed er der tale om? a) homonymi, forskellig ordklasse, b) homonymi, samme ordklasse, c) polysemi, d) navne med forskellige referencer Hvilke elementer i teksten gør at vi forstår hvilke betydninger der er tale om? 15
Øvelse 2: synonymi Korpusøvelse fra KommuneInformation om synonyme udtryk. Vurder hvilke hits i arket der er gode hits til forespørgslen; marker i margen. Er der særlige sproglige kendetegn ved gode hits? Er der særlige sproglige kendetegn ved dårlige hits? Til diskussion: kan vi opstille regler for hvornår udtryk er synonyme med et sammensat ord? 16
Synonymi ved sammensætninger Kan man automatisk finde fraser der er synomyne med et sammensat ord? Sammensætningen deles: apoteksovertagelse => apotek overtagelse Man finder de tekster hvor de enkelte dele optræder i et syntagme. 17
Synonymi ved sammensætninger Forespørgsel: apoteksovertagelse Udvidet til: apotek overtagelse 19.0 Udgifter i forbindelse med [NP overtagelse, nyanlæg eller flytning af et apotek] 9.0 Han lod ved [NP overtagelsen] foretage [NP en optælling af apotekets varelager] Ved deling af sammensatte ord: Ved indragelse af navnefrasegrænser: 40 % precision 81 % precision 18