Digitale Videnssystemer: Notater Sigfred Hyveled Nielsen IVA / Københavns Universitet 3. Semester Denne tekst er skrevet af Sigfred Nielsen, og stillet til rådighed under Creative Commons Navngivelse-IkkeKommerciel-DelPåSammeVilkår 3.0 Unported licensen. http://creativecommons.org/licenses/by-nc-sa/3.0/
Digitale Videnssystemer: Notater 0: Indhold Indhold Indhold 2 1 Notater fra undervisning 3 1.1 Markup og XML................................. 3 1.1.1 SGML................................... 3 1.1.2 XML................................... 3 1.2 Metadata..................................... 4 1.2.1 Metadata vs deskriptive data..................... 4 1.2.2 Standarder................................ 4 1.3 Billedindexering................................. 5 1.4 Lydindexering.................................. 5 1.5 Bibliometri 1................................... 5 1.5.1 PURE................................... 5 2
1 Notater fra undervisning 1.1 Markup og XML Al tegnsætning og lign. er markup. Et symbol-syntax, som er forståeligt for både skriver og læser. Vi læser ikke Markup vi fortolker. Typer af markup: Tegnsætningsmarkup: det vi bruger i skriftsproget, og lærer som børn i skolen. Præsentationsmarkup: tilføjes automatisk i word processors (sidetal/kursiv) kun ved WYSIWYG!!! Proceduremarkup: TeX, PostScript, etc. Referentiel markup: link, fodnote, henvisning... Metamarkup: Markup af metadata titel, forfatter... Deskriptiv markup: bruges i XML. Fortæller hvad der er, hvor andre typer primært angiver hvordan det skal se ud. Nogle typer markup egnet til læsning af mennesker, andre egnet til maskinel behandling. 1.1.1 SGML Standard Generalized Markup Language. Ophav til XML. En universel standard gør data brugbare på tværs af grænser, kan behandles uhæmmet. SGML er ikke i sig selv et markup sprog, har ikke et syntax. En ramme. HTML er et SGML. 1.1.2 XML XML skabt for at reducere SGML. Man kan lave egne tags i HTML kan man blot angive noget som italic, hvor XML kan angive som quote. XML er opbygget i et træ, med Parent og Child nodes. Det er hierakisk, og tag-sæt kan ikke overlappe (du kan ikke sige på tværs af ). Understøtter også attributter: Alt dette gør, at man kan transformere dataene på mange forskellige måder. Med transformering kan man opsætte regler, der fx gør at alt med tagget titel markeres med fede typer. Man kan i og for sig hver især definere sine egne XML tags, men så kan man ikke nødvendigvis bruge andres. Derfor søger man at definere standarder for tagging. 3
1.2 Metadata Metadata er struktureret information, der beskriver ressourcen - dataene. I gamle dage var det på biblioteket kartotekskort hvad der idag er overført til digitale databaser. Typer: Administrative metadata Strukturerede metadata (så res. kan findes igen, fx format) Deskriptive metadata beskriver ressource Kan opstilles i forskellige formater (simpel, struktureret, rig). Forskel ligger primært i hvordan de indsamles automatisk, manuelt,... 1.2.1 Metadata vs deskriptive data Deskriptive data =/= deskriptive METAdata. Deskriptive data er i dokumentet, ofter tilføjet af forskere. Fx når historikere anmærker at en del af en tekst er gået tabt. 1.2.2 Standarder De forskellige typer data og metadata er underlagt diverse standarder, fx: Dublin Core: 15 grundelementer i metadata-opsætning. Struktureret format. MARC (i Danmark i udgaven danmarc2). Biblioteksformat. Er ved at miste grund til en mere XML-baseret udgave. TEI: giver mulighed for at redigere og analysere texter, baseret i XML-retningslinierne (og TEI er mere retningslinie end standard). Kan bruges til både metadate og deskriptive data. Bruges meget i forskningsøjemed. Interoperabilitet: gør at man kan udveklse data mellem forskellige standarder. Kan være problematisk hvor sætter man ting lig hinanden? Flexibilitet: i hvilken grad man selv vælger, hvad man bruger af standarden. Skal alle felter/tags anvendes? Hvor meget standarden kan tilpasses den konkrete brug. Extensibilitet: hvor meget man selv kan udvide standarden med egen markup. Fx hvis TEI ikke har tags for matematiske formler så kan man bruge MathML s tags, og dermed bruge to standarder samtidig. Problemet er at det går ud over interoperabiliteten jo mere specifikt det er, jo sværere er det at bruge bredt. 4
Det kan også være problematisk, hvis man bruger de samme tags, men mener noget forskelligt med dem. Fx hvis nogen har brugt et tag, fordi de ledte efter ikke allerede findes. 1.3 Billedindexering KILDE: Lancaster, kap.13 Det er svært at indexere ikke-text objekter. Subjektivitet, følelser Billeder skal fortolkes, en text skal læses. Perspektiv er en faktor. Specificitet/detaljegrad. Konceptbaseret indexering Vi genkender elementer på billeder fx at det forestiller en bestemt person (high level features). Indholdsbaseret indexering De basale medfødte egenskaber af billedet, fx farver og former (low level features). Der er lag i billedbeskrivelser (se slideshow), der tæller som stigende niveauer af specificitet, nøjagtighed, abstraktion. Disse bliver gradvist sværere at gøre maskinelt en maskine kan genkende at det er et billede, farver og mønstre men hvad billedet forestiller er en menneskelig opgave (indtil algoritmerne bliver bedre). I en abstrakt forstand kan billedet være AF eller OM af et menneske, eller om fattigdom. Hvad det er af kan vise hvad det er om et skelet kan betyde død. Her bliver det straks sværere at gøre det maskinelt. 1.4 Lydindexering Længere væk fra text end billeder, men kan indeholde tale der kan transkriberes til skrift og søges i. Men musik og lyde er sværere for en maskine at lægge ret meget i. 1.5 Bibliometri 1 1.5.1 PURE System man bruger til at registrere publikationer (opfundet i Danmark). Opererer med et pointsystem, alt efter hvad der skrives. Forskere får kun point for nogle typer (ikke fx avisartikler), og disse udløser penge. En entry har et status felt. 5
Der måles på antal af forfattere, og deres ansættelsessted. 6