Bringe taksonomier i spil Frans la Cour
Hvem er jeg? Frans la Cour 3 år hos ensight a/s Systemdesign Projektledelse og implementering Undervisning Med udgangspunkt i Veritys værktøjer Vise nogle af de muligheder der eksisterer Give inspiration til løsning af nogle gængse problemstillinger
Hvorfor taxonomier? Duplikere existerende dokumenter eller viden fordi man ikke kunne finde de eksisterende Inkonsistente beslutninger, fordi folk træffer beslutninger på mangelfuldt eller forskelligt grundlag på tværs af afdelinger Mistede muligheder på grund af manglende overblik... Mindre oplæringsomkostninger for nye medarbejdere Et sted at opbevare og distribuere viden om virksomhedens forretningsområder, konkurrenter,.. Kvalificere et-ordsøgninger...
Søgning og taksonomier Se dokumenter i sammenhæng Opdage ukendte kilder, informationer og lignende Jeg ved hvad jeg ser, men jeg ved også at der ligger noget lige ved siden af, som kan være relevant
Elementer i en forretningstaksonomi Arbejdsprocesser Automatisk klassifikation Indhold / Dokumenter Analyse Struktur Opbygning Kategorier Opbygning Typer Værktøjer Præsentation / Anvendelse Gode råd Præsentation Værktøjer Processer Taxonomi Kategorier Indhold Struktur
Arbejdsprocesser
Automatisk klassifikation 1 Manuel opbygning af struktur Manuel opbygning af regelbaserede kategorier
Automatisk klassifikation 2 Manuel opbygning af struktur Automatisk opbygning af reglebaserede kategorier +/- prototype-dokumenter Minimum 50 docs af hver slags Tilpas eventuelt kategoriseringsregler
Automatisk klassifikation 3 Automatisk opbygning af struktur Eventuelt tilpasning af kategorier Automatisk opbygning af reglebaserede kategorier +/- prototype-dokumenter Minimum 50 docs af hver slags Tilpas eventuelt kategoriseringsregler
Indhold
Indhold / dokumenter Hvor kommer dokumenterne fra? Databases Doc-base (MS Exchange/Documentum) Intranet CMS Intranet ingen CMS Fileshares - fællesdrev Internet Kontrol
Hvor kommer dokumenterne fra? Internet Mere kontrol Fællesdrev Intranet uden CMS Intranet CMS Docbaser (ex. Documentum, MS Exchange) Database records
Dokument egenskaber Størrelse/Længde Typer Meta-data Datoer Web Doc-base fildrev Titler Skabeloner Database records Keywords Udskiftning
Dokument analyse
Struktur
Eksterne strukturer Hierakiske Organisation divisioner, afdelinger Geografi Forretningsområder - Produkter Filplacering Kilder, stinavn, url Dato År, måned, uge Flade Forfatter Dokumenttype Størrelse Import fra CMS, Databaser Dannet fra dokumenter
Taxonomi fra placering Fra url eller sti Http://intranet/personale/sommerhuse/ansøgning/
Taxonomi fra meta-data Fra meta-data felt Eksempel keywords
Thematic mapping Automatisk udtræk af emner og struktur fra en eksisterende dokumentmængde Et landkort over en eksisterende dokumentmængde En udbygning af en eksisterende struktur med for brede klasser Mange relevante dokumenter Gode stop-ordslister
Thematic Mapping - eksempel
Make or Buy? MeSH Medical Subject Headings 300.000 terms and subjects DTIC Defence Technical Information Center 12.000 subjects Human Resource Information Technology Sales and Marketing
Kategorier
Kategorier Hver kategori i taksonomien er en forretningsregel i VQL Navngivne kategorier kan eventuelt genbruges i søgning Søgning på xp udfører de regler der er tilknyttet kategorien xp
Statiske kategorier Enten er dokumentet med eller ikke med Eksklusiv dokumentet er kun i én kategori Enten skrevet i dokumentet (tagging) Eller skrevet i strukturen Kræver typisk vedligeholdelse af dokumenter Svær at ændre Nem at styre
Dynamiske kategorier Dokumenter tilhører kategorien med en vis relevans Kategorien defineres ved Nogle egenskaber, såsom termer, udtryk der definerer et koncept En minimum relevans Inklusiv det samme dokument kan godt forekomme i flere kategorier Nye dokumenter fremkommer automatisk Vedligeholdes centralt Uafhængig af tagging Kan være sværere at styre
Regler Regler kan basere sig på både Fritekst Meta-data Defineres i Verity Query Language Ubegrænset kompleksitet Relevans kan styres for de enkelte kriterier uafhængigt Typisk har dynamiske kategorier en nedre grænseværdi for relevans
Automatiske regler Markerer (+) positive og (-) negative prototype dokumenter Minimum ca. 50 positive per kategori Kør Logistics Regression Classifier
Både og Statisk eller dynamisk Afhænger af strukturen dato vs. Emne Lav dynamisk men udnyt metadata, såsom sti, titel,... Manuel eller Automatiske regler Automatiske regler afhænger stærkt af dokumenternes informationskvalitet Eventuelt start med automatiske regler og brug manuelle regler til at forfine med
Eksempler på evaluering Er alle de rigtige dokumenter i kategorien? Er der forkerte dokumenter i kategorien? Er der nok dokumenter i kategorien? Eller for mange dokumenter i kategorien?
Tagging eller ej Nogle informationer tagges altid og konsistent på dokumenter Dato, type, størrelse Problemer ved konceptuel tagging (Emner) Svært at opnå konsistens Svært at opdatere, for eksempel når termer ændrer sig Fordele Giver portable dokumenter, hvis disse genbruges i andre systemer Uafhængig af indholdet
Feedback dokument tagging Dynamiske kategorier baseret på fritekst, kan bruges til tagging dokumenter Ex: Hvis et dokument møder kriterierne i kategorien flextid, med en relevans på 0,8 eller højere kan man foreslå dette tilføjet dokumentets keywords.
Værktøjer
Verity Intelligent Classifier
VERITY COLLABORATIVE CLASSIFIER Uddeleger vedligeholdelsen af dele af taxonomien til eksterne redaktører Central eller distribueret publish Sæt autopublish og thresholds for hver node
VERITY COLLABORATIVE CLASSIFIER
Præsentation
Visualisering
Resultatoptælling
Resultatoptælling
Relaterede taksonomier
Demosite url: http://veritydemo.verity.com Mere en 20 forskellige applikationer af Veritys teknologi Brugernavn og password skal rekvireres hos seminar@ensight.dk
Andre værktøjer Search logs Hvad søger folk efter? Hvad kalder de det? Quick links Best bet Der er altid 1 eller 2 sider der er mest besøgt Verity extractor udtrækker navne, datoer, steder m.m. fra brødteksten Kan skrives til meta-data felter i dokumenter Recommandations
Gode råd Analyser dit indhold For at forebygge overaskelser Og udnytte foræringer Vær flexibel Tænk i præsentation og brug Ikke i regler Uddeleger til lokale eksperter om nødvendigt Sikrer kvalitet Og medejerskab Evaluer og tilpas Den sidder ALDRIG i skabet i første hug Viden og emner flytter sig konstant Skab et feed-back system Både manuelt (e-mail) og automatisk (logs) Brugerne er de eneste der ved om det virker Automatik er godt Men flexibilitet er bedre!