Konvertering af STO-SIMPLE til LMF med udgangspunkt i filen: nysimpletotal.sgml

Relaterede dokumenter
DK CLARIN: METADATA FOR WP4 RESSOURCER

Konvertering af DADAS data til Reitan VI-skema

DTD Document Type Definition:

Database for udviklere. Jan Lund Madsen PBS10107

Uniq.Survey-Xact.DK. Vejledning. Rambøll Management Olof Palmes Allé 20 DK-8200 Århus N Denmark. Tlf:

Konvertering af DADAS data til Dansk Supermarked VI-skema

Netkatalog upload. Forord: Formål:

Webserverprogrammering

Af: John Tesdorph/KMD Af: John Tesdorph/KMD

Lectio. SMS-service vejledning. MaCom A/S Vesterbrogade 48, København V Telefon: mail@macom.dk Internet:

På nedenstående billede skal du finde den figur som optræder nøjagtig 3 gange.

Han overfører altså dele fra en brugt ytring, og bruger dem i sine egne sætningskonstruktioner dog ikke grammatisk korrekt.

OIOUBL Guideline. OIOUBL Guideline

DDElibra H Å N D B O G

Vejledning i skabelse og test af metadata

Værktøjer fra værktøjskassen. Søren Breddam, Stevns Kommune

Vejledning: Kontaktbarhed med SEPO (Produktionsmiljøet)

Retningslinjer for Captia-journalisering på eksternt finansierede forskningsprojekter

Encoding:...1 Et tegn sæt (character set):...1 UTF-8 og UTF-16 (Unicode):...2

Danske adverbier mellem leksikon og syntaks Ph.d.-afhandling Sanni Nimb

Udvalgte nye elementer i Navision DDI en

Vejledning: Kontaktbarhed med SEPO (Produktionsmiljøet)

Afsnittet er temmelig teoretisk. Er du mere til det praktiske, går du blot til det næste afsnit.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Formular modul. Sitecore Foundry juli Version 1.0

Microsoft Dynamics C5. Factsheet om OIOUBL Opsætning, bruger og teknisk vejledning

FNUX. Testprotokol Version 2.3 for. Fælles Nordisk Udvekslings-Format, FNUX

DPSD undervisning. Vejledning til rapport og plan opsætning

Bruger (kursist/deltager) Kom godt i gang med plan2learn. Version 0.01 Versionslog: 0.01

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Revision af tekniske standarder i OIO-kataloget 2007

KompleksTekst specifikation

Webside score printersupportnu mbercare.blogspot.com

Lectio. Overgang til Lectio Eksamensmodul. MaCom A/S Vesterbrogade 48, København V Telefon:

DAVAR Omdøbt til SagDokumentFormat. Attention er skilt ud i et selvstændigt format, AttentionFormat.

Webside score horrea.fr

Vejledning - indberetning til PensionDanmark Sundhedsordning

OPRETTELSE AF FIL NODE

INDHOLDSFORTEGNELSE... 1 FORORD ORDBOGSVÆRKTØJET I VÆRKTØJSLINJEN ORDBOGEN... 3

Fra Informationsmodel til en DTD

Generelt Udtræk leveres som Zip-filer indeholdende udtræk i det format, som man som kunde har valgt.

INTRO TIL GOOGLE DREV

Finanstilsynets indberetningssystem. Vejledning til Regnearksskabelonerne

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 4: Mere om E-R modellering. 24. februar Forelæser: Rasmus Pagh

Projekt DATA step view

Import fra C Revisor Informatik ApS

One-page checkout til Magento

Vejledning til prototypen af RaConverter

Dat 2/F6S: Syntaks og semantik 2005 Centrale emner og eksamenspensum

NemKonto. XML skemaer for. ukomplette og komplette betalinger. til NKS

06.1 Regnskabstalmodul

AARHUS UNIVERSITET. Økonomi 17. maj 2016

Integration med egne systemer. Vejledning til Digital Post for virksomheder

Q-Variant i kasseterminalen

TeamShare 2.1 Versionsnoter Oktober 2009

Implementeringsvejledning NemKonto-betalinger via Danske Bank Version 1.2

Installation af Novapoint 19.35

Spring Schema Extension eller Spring Domain Specific Languages

BEC. NetScaler Unmanaged VPN. Installation. Bruger Vejledning. Version

Athena DIMENSION Varmeanlæg 4, Eksempel

Problemstilling ved DBK integration i BIM Software Hvad skal der til. Nicolai Karved, Betech Data A/S

Vejledning i brug af imastra

Blanketmøde MedCom 10 afslutning Nyborg 13. december Michael Due Madsen Specialkonsulent, MBA

Manual til Statistik. ShopStatistics. Med forklaring og eksempler på hvordan man håndterer statistik. Consulo ApS

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

Integrationer imellem AX2012 og Winformatik Økonomisystem vers. 3.0

Dokumentation af optagelse.dk

C5 EDI (COOP/Dansk Supermarked) PentaCon A/S

Vejledning og beskrivelse til kørselsappen Min Kørsel

Uddybende vejledning til UTS Forsyningsspecifikation i OIOUBL

Spatial Suite Bruggergruppemøde Øst Tirsdag den 11. juni Karsten Pihl,

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Vejledning PROPHIX 11. Brug af cellekommentarer i Prophix. Systemansvarlige Daniel Nygaard Ricken Økonomiafdelingen

DM536. Rapport og debug

Vejledning til End 2 End testen

Da beskrivelserne i danzig Profile Specification ikke er fuldt færdige, foreslås:

BRUGERVEJLEDNING TRIC LAGERRAPPORT MODUL TIL MAGENTO MODUL VERSION BRUGERVEJLEDNING TRIC - Lagerrapport

Vejledning til validator test af metadata

FKG datamodellen Version ArcGIS integration Sidste revisionsdato: 23. maj 2014

Hjælp til MV-ID Administration

LinkGRC. Dokumenter. Brugermanual

GIS. Guide til indlæsning af data i ArcGIS herunder KMS-data fra internettet

Begrænsninger i SQL. Databaser, efterår Troels Andreasen

Certificate Revocation Authority. Certificate Revocation Authority

Rapport om snitflader til publiceringsagent i Gentofte Kommune

ISOWARE release note

Guide til opdatering af Navision Stat med ny funktionalitet - nye objekter, datakonvertering, automatisk indlæsning af datafiler.

Eksterne Sundhedsinstitutioners import af sundhedsenheder til SOR

Webside score unlockdealers.com

WebGT Graveansøgning. Brugervejledning. 25. september Udgave 1.0

Indholdsfortegnelse. Version Serviceplatformen - opsætningsguide (Eksterne testmiljø) Indledning... 2

GOOGLE DOCS. Eksempel på instruktion til studerende der skal give feedback til medstuderende:

Produkt Modellering & Load til Microsoft Dynamics NAV

VIGTIG information til alle kunder som kører backup over Internet via SSL - Kræver kundeaktion inden 17. april 2009!

Advanced Word Template Brugermanual

1 Forside. Side 1 af 15

Sammenhæng og samarbejde Når RSI pejlemærker rammer det lokale arbejde med EPJ. SFI-konsulent Lars Lilholt

Arkiv i SIMU World. Arkivet ligger i SIMU World, og gør det muligt at arkivere jeres sager direkte i SIMU World.

Tech College Aalborg. HomePort. Projekt Smart Zenior Home Guide til udvikling af nye adaptere til HomePort

Transkript:

Konvertering af STO-SIMPLE til LMF med udgangspunkt i filen: nysimpletotal.sgml Denne README-fil, filen STO-SIMPLE-LMF-dokumentation.xsl samt SIMPLE-documentation-danishfinalny.pdf udgør dokumentation for konvertering af STO-SIMPLE til LMF. Udgangspunktet er filen: nysimpletotal.sgml (fra 01-12-2005) og LMF, ISO-24613:2008, DTD_LMF_REV_16.dtd. Under vejs har det været nødvendigt at lave manuelle mapninger og at konstruere (redefinere) strukturer. I STO foregår referencen til semantikken (SIMPLE) via syntaksen. I STO-LMF har vi taget den beslutning at LexicalEntry, som findes på både morfologisk, syntaktisk og semantisk niveau, er repræsenteret af GMU, MU og Lemma, hvilket betyder at både syntaksen og semantikken refererer tilbage til morfologien hvor alle bøjningsformer og varianter findes. Den semantiske, leksikalske indgang i STO-SIMPLE-LMF ser i overordnede træk således ud: LexicalEntry Feat: Id =GMU, MU Lemma Sense PredicativeRepresentation Predicate (#ref_1) Correspondences (#ref_2) SenseRelation SemanticPredicate (#ref_1) SemanticArgument (#ref_3) SynSemCorrespondence Correspondences (#ref_2) SynSemArgMap (#ref_3) I STO-SIMPLE-LMF udtrykkes sammenhængen mellem syntaks og semantik altså gennem elementet Sense.PredicativeRepresentation.correspondences til strukturen SynSemCorrespondence. SIMPLE-modellen vil ikke blive yderligere forklaret her, der henvises til SIMPLE-documentationdanishfinalny.pdf. Der er vist et eksempel på den leksikalske indgang for ordet forvalte længere nede i dokumentet og sst er LMF-dtd en indsat. Hele STO-SIMPLE-LMF-strukturen med dens forhold til SIMPLE-stukturen kan ses i STO-SIMPLE-LMFdokumentation.xlsl/LMF-isocat-STO.

Enkelte kommentarer til forholdet mellem SIMPLE og STO-SIMPLE-LMF Indholdet af strukturen Sense i LMF svarer stort set til de oplysninger der er at finde i SemU i SIMPLE. Elementet Sense.PredicativeRepresentation.correspondences er obligatorisk i LMF og derfor konstrueret ud fra Sense- da værdien ikke eksisterer i SIMPLE. Strukturen SemanticPredicate (peges på fra LexicalEntry.Sense.PredicativeRepresentation.predicate) er konstrueret manuelt på baggrund af de predicate-values der fandtes i Semu erne i SIMPLE. Grunden er at der i SIMPLE ikke var korrekt korrespondance mellem predicate i semu og Predicate:. Fx danse: i SemU er predicate = ARG1hum men i Predicate = PREDdanse_MOV_1 SynSemCorrespondence der forbinder senseid, synuid, subkategoriseringsrammen og argumenter er genereret på baggrund af udtræk fra STO-basen. Mapning mellem Sense. (Semu-) og LexicalEntry. (GMU-) er lavet: 1) på baggrund af udtræk fra basen (7229 stk.), 2) automatisk via LMF-syntaks for de GMU- der ikke var linket til Semu- i basen (1811 stk.) samt 3) manuelt for resten (203 stk.) Disse kan entificeres vha. et kommentarfelt: <feat att="comment" val="linked manually to (GMU ) and morphologicalunitid (MU ) because of spelling errors or multiple spellings"/> Bemærk at SemanticPredicate.SemanticArgument i LMF ikke indeholder roller (fx Agent) som i SIMPLE Der findes DUMMIES på 3 niveauer: Dummy-sense (2660 stk.) LMF kræver at de Sense.'s der peges på (fra fx semanticrelation) skal være defineret andet steds i dokumentet. Hvis indgangen (og dermed Sense- en) ikke fandtes, er den genereret som en dummy med værdien DUMMY-SENSE. Alternativet til en DUMMY-SENSE er at den semantiske relation (hvorfra der peges) bliver fjernet. Dummies er skabt allerede i STO-SIMPLE og ikke ved konverteringen til LMF. Dummy-synu (1289 stk.) Det er ikke alle indgange som har en PredicativeRepresentation der også har en tilsvarende kodning i syntaksen. I disse tilfælde er mapningen fra SynSemCorrespondence.targetSynuId erstattet af værdien dummy-synu. Alternativt skulle hele PredicativeRepresentation slettes dvs. selektionsrestriktionerne der findes via predicate, fjernes. Dummy-gmu (6 stk.) Der er enkelte indgange med semantisk kodning hvor der ikke er en tilsvarende morfologisk indgang. GMU- en er her udfyldt af værdien GMU_DUMMY.

Eksempel forvalte <LexicalEntry> <feat att="" val="gmu_forvalte_1"/> <feat att="morphologicalunitid" val="forvalte"/> <Lemma> <FormRepresentation> <feat att="writtenform" val="forvalte"/> </FormRepresentation> </Lemma> <Sense ="USEM_V_forvalte_REA_1"> <SenseExample> <feat </SenseExample> <Definition> <feat att="example" val="almindeligvis lader man et pengeinstitut eller et pensionsforsikringsselskab om at forvalte de opsparede pensionsmler"/> att="definition" val="sørge for noget at sker på en planmæssig og ordnet måde, fx udførelsen af et arbejde, ledelsen af en organisation el. kontrol med pengesager (NDONY)"/> </Definition> <feat att="ontotype" val="relationalact"/> <feat att="ontosupertype" val="act"/> <feat att="semanticfeature" val="eventtype:process"/> <feat att="classificateur_de_verbe" val="social"/> <PredicativeRepresentation predicate="arg12hum_concrabs" correspondences="synsemcor_v_forvalte_rea_1"> <feat att="typeoflink" val="master"/> </PredicativeRepresentation> </Sense> </LexicalEntry> <SenseRelation targets="usem_n_handling_act_1"> <feat att="weight" val="prototypical"/> <feat att="semanticrelation" val="isa"/> </SenseRelation> <SemanticPredicate ="ARG12hum_concrabs"> <SemanticArgument> <feat att="arg1" val="human"/> </SemanticArgument> <SemanticArgument> <feat att="arg2" val="concreteentity"/> <feat att="arg2" val="abstractentity"/> </SemanticArgument> </SemanticPredicate> <SynSemCorrespondence ="SynSemCor_V_forvalte_REA_1"> <feat att="targetsenseid" val="usem_v_forvalte_rea_1"/> <feat att="targetsynuid" val="synu_forvalte_1"/> <feat att="subcategorizationframe" val="dv2n"/> <SynSemArgMap> <feat att="correspondence" val="arg12"/> </SynSemArgMap> </SynSemCorrespondence>

STO-SIMPLE-LMF-dokumentation.xlsl indeholder følgende ark: Optælling af LexicalEntries, dummies, verber, substantiver, adjektiver, 1 Statistics predikater og korrespondancer mellem syntaks og semantik 2 LMF-isocat-STO Redegørelse af hvilke værdier i STO-SIMPLE der er mappet til hvilke værdier i LMF samt isocat-links for features 3 Onto Types Liste af ontologiske type fra SIMPLE-ontologien brugt i STO-SIMPLE-LMF Liste af ontologiske type samt deres ontologiske supertype fra SIMPLEontologien brugt i STO-SIMPLE-LMF. Bemærk at der ikke alt er defineret Onto + ontosuper 4 types ontologiske supertyper i indgangene. SIMPLE ontologien kopieret fra: http://www.ilc.cnr.it/clips/ontology.htm 5 SIMPLE ontology 6 Semantic features Liste af semantiske features brugt i STO-SIMPLE-LMF. Da LMF ikke tillader indlejrede strukturer for disse, men kun frature -values, der værdierne lt kunstige fx Age:Adult. Alternativt skulle alle venstredele før kolon (fx Age) være udtrykt som fratures og højresen som value; mne derved ville oplysningen om at der er tale om "semantic features" vs. "semantic relations" gå tabt. Liste af alle semantiske relationer brugt i STO-SIMPLE-LMF 7 Semantic relations 8 Domains Liste af alle domæner brugt i STO-SIMPLE-LMF 9 Predicates Liste af alle prædikatnavne brugt i STO-SIMPLE-LMF 10 Type of links 3 forskellige type links mellem sense og predicate 11 Weight 2 forskellig vægtning (for semantisk relation)

<?xml version='1.0' encoding="utf-8"?> <!--*********************************************************************** * LMF DTD Strict dtd for valation of DK-SIMPLE-LMF ***********************************************************************--> <!-- ******************************** Core package ***********--> <!ELEMENT LexicalResource (feat*, GlobalInformation, Lexicon+)> <!ATTLIST LexicalResource dtdversion CDATA #FIXED "16" xmlns:dcr CDATA #FIXED "http://www.isocat.org/ns/dcr"> <!ELEMENT GlobalInformation (feat*)> <!ELEMENT Lexicon (feat*, LexicalEntry+, SemanticPredicate*, SynSemCorrespondence* )> <!-- ******************************** LexicalEntry ******************************--> <!ELEMENT LexicalEntry (feat*, Lemma, Sense* )> <!ATTLIST LexicalEntry ID #IMPLIED> <!ELEMENT Lemma (feat*, FormRepresentation*)> <!ELEMENT FormRepresentation (feat*)> <!-- ******************************** Sense ***************************--> <!ELEMENT Sense (SenseExample*, Definition*, feat*, PredicativeRepresentation*, SenseRelation*)> <!ATTLIST Sense ID #IMPLIED> <!ELEMENT SenseExample (feat*)> <!ATTLIST SenseExample ID #IMPLIED> <!-- Vi har ikke på vores eksempler --> <!ELEMENT Definition (feat*)> <!ELEMENT PredicativeRepresentation (feat*)> <!ATTLIST PredicativeRepresentation predicate IDREF #REQUIRED correspondences IDREFS #REQUIRED> <!ELEMENT SenseRelation (feat*)> <!ATTLIST SenseRelation targets IDREFS #REQUIRED> <!-- ******************************** SemanticPredicate ******************************--> <!ELEMENT SemanticPredicate (feat*, Definition*, SemanticArgument*, PredicateRelation*)> <!ATTLIST SemanticPredicate ID #REQUIRED semantictypes IDREFS #IMPLIED> <!-- Vi har ikke semantictype --> <!ELEMENT SemanticArgument (feat*)> <!ATTLIST SemanticArgument ID #IMPLIED semantictypes IDREFS #IMPLIED> <!-- Vi har ikke eller semantictype --> <!-- ******************************** SynSemCorrespondence ******************************--> <!ELEMENT SynSemCorrespondence (feat*,synsemargmap*)> <!ATTLIST SynSemCorrespondence ID #REQUIRED> <!ELEMENT SynSemArgMap (feat*)> <!-- ******************************** for data category adornment: feat stands for feature ***********--> <!ELEMENT feat EMPTY> <!-- att=constant to be taken from the DataCategoryRegistry --> <!-- val=free string or constant to be taken from the DCR--> <!ATTLIST feat att (argadj arg0 arg1 arg2 arg2ao arg2e arg2eao arg2p arg2pao argassoc argp2 AS ASSOC classificateur_de_adjectif classificateur_de_nom classificateur_de_verbe comment correspondence subcategorizationframe domain languagecoding languageidentifier morphologicalunitid semanticfeature semanticrelation definition example ontosupertype ontotype targetsenseid targetsynuid typeoflink weight writtenform) val CDATA #REQUIRED dcr:valuedatcat CDATA #IMPLIED dcr:datcat CDATA #IMPLIED > #REQUIRED