Brugermanual til Netarkivet Del I Fritekstsøgning Del II Wayback-søgning Del III Workspace setup et eksempel Oktober 2015 1
Indholdsfortegnelse DEL I Fritekstsøgning via knappen Netsearch/Blacklight... 3 Log på... 3 Introduktion... 4 Først test søgning... 4 Søgemuligheder... 5 Text... 5 URL/domain... 6 Links... 6 Facetter... 7 Sortering... 8 Søgeresultat:... 9 Visning af det komplette indeks:... 9 Avanceret søgning... 10 Felt søgning... 10 Interval søgning... 11 Filtrer... 12 Troubleshooting... 13 Potentiel opstartsfejl:... 13 DEL II URL Søgning via Wayback... 15 Brug af Wayback... 15 Vær opmærksom på at... 16 Sådan refereres til en web side... 17 Sådan fremfindes en reference til en web side... 17 DEL III workspace setup et eksempel... 19 2
DEL I Fritekstsøgning via knappen Netsearch/Blacklight Log på Først skal du logge på Citrix og vælge IE WayBack PROD Dernæst skal du vælge, om du vil direkte til Wayback, eller om du vil bruge fritekstsøgningen via NetsearchBlacklight. Vælg NetsearchBlacklight (klik på det billedet med sort baggrund) 3
Introduktion Sådan ser start-siden ud: De søge resultater, som I får, vil være meget større, da denne guide er lavet på en meget lille test-høstning (6400 dokumenter, hvorimod TEST-miljøet har næsten 40 millioner dokumenter, og PROD er der milliarder af dokumenter). Enkelte søgninger kan godt tage over 10 sekunder. Jo mere specifik en søgning er, jo hurtigere kan den give svar. Først test søgning Der søges i search indstastningsfeltet øverst i midten. Prøv at søg på netarkivet.dk: 4
Søgemuligheder Som default søges på alle tilgængelige søgefelter, via All Fields. Dette kan afgrænses til mere specifikke søgninger via de andre søgemuligheder: Text Giver kun resultaterne, hvor søge-teksten findes i titel eller indholdsteksten (felterne title og content_text). 5
URL/domain Søger kun på URL og domain felterne. Links Søger på links felterne (links_hosts og links_domains) 6
Facetter Når man har lavet en søgning, kan man bruge facetterne til at afgrænse resultatet: Prøv at afgræns søgningen med et par forskellige facetter: 7
Sortering Søgeresultatet kan sorteres på flere forskellige måder: Antal resultater I udgangspunktet vises kun 10 søgeresultater af gangen, men du kan selv vælge hvor mange du vil have vist via XX per page dropdown menuen: 8
Søgeresultat: For hvert søgeresultat vises en masse forskellige felter. Den første linje har søge-resultat nummeret (her 157 og 158) efterfulgt af linket til wayback (dækket af enten titlen på dokumentet eller den URL, som de er høstet fra hvis der ikke er en titel). Wayback linket åbnes i en ny tab eller et nyt vindue. Den efterfølgende linje indeholder link det komplette indeks for det givne resultat (forklares senere). Derefter kommer nogle relevante indeks-felter dette er bare et forslag, og det vises på default måden. Visning af det komplette indeks: Ved at trykke på complete index linket i en søgning, kan man det fulde indeks for et givent søge-dokument. Som vist nedenfor starter siden med at vise noget af det vigtigste information om søgedokumentet, herunder link til wayback. Derefter vises alle felterne fra det SOLR dokument, som dækker over det givne søgeresultat. I udgangspunktet vises alle felterne fra SOLR-indekset, med undtagelse af et _version_ felt, der udelukkende bruges til intern SOLR opdatering. Der er helt sikkert flere af disse felter, som vi kan undlade. 9
Avanceret søgning I søge feltet kan man indtaste avancerede søgninger på specifikke felter med specifikke værdier, intervaller og filtre. Felt søgning Det er muligt at lave søgninger på specifikke felter ved at skrive felt:text i søgefeltet. F.eks. er der feltet author i søgeresultatet ovenfor, hvor vi kan søge på Margaret Blake som forfatter: Vi kan også bare søge på, hvilke sider/dokumenter der har en forfatter tilknyttet (altså, hvor karakteriserings-værktøjerne har fundet en forfatter): 10
Interval søgning Der er nogen felter, hvor det giver mening at lave et interval til ens søgninger, f.eks. datostempler. Ved at bruge feltet wayback_date (som er høstningsdatoen i format: yyyymmddhhmmss ) kan man f.eks. lave et interval fra 2009-2013 på følgende måde: Det kan også være et åbent interval, f.eks. alt inden 1. juni 2012: 11
Det er også muligt at kombinere almindelige interval med en almindelig søgning, f.eks. alt inden 1. juni 2012, der omhandler netarkivet.dk: Filtrer Det er muligt at sige, at man gerne vil filtrere nogle søgeresultater fra. Dette gøres ved at tilføje et minus foran en specifik søgning, -felt:værdi, f.eks. hvis man vil finde alle sider, der handler om netarkivet.dk, men ikke er på domænet netarkiet.dk: 12
Troubleshooting Potentiel opstartsfejl: Der kan være nogle problemer med start-siden i Citrix, så den ser forkert ud: I så fald lav en søgning på netarkivet.dk (som vist ovenfor), og tryk på search knappen igen, når du får resultat-siden: 13
Så burde side komme op i det rigtige format: 14
DEL II URL Søgning via Wayback Brug af Wayback Når man er logget på Wayback får man følgende skæmbillede op: Skriv din søge url i Enter Web Address: feltet og klik på Take Me Back. Her ses alle de datoer i UTC tid ( se evt. http://da.wikipedia.org/wiki/utc ) - altså 1 eller 2 timer før vores tid (alt afhængig af om vi har vintertid eller sommertid) - som netarkivet.dk er blevet høstet på. Ved at holde musen hen over en dato får man en proveniens kode til selve høstningen og navnet på warc opbevaringsfilen: jobnr-høstningsid-dato-løbenr-server. Klikker man på en given dato, får man den høstede side op. Læg mærke til proveniens koden øverst er tilføjet et nummer til sidst, som angiver eksakt offset i den fil som websiden ligger i. Vær opmærksom at denne dato og tidspunktet nedenfor i top bjælken er det eksakte høstningstidspunkt i UTC tid. Øvrige tidspunkter på siden er normal dansk tid. 15
Man kan udføre lokal print ved at højre klikke på siden og vælge print - under forudsætning af, at man har defineret en lokal printer. Derudover kan man se den tekniske opbygning af siden ved at højreklikke og vælge View Source. Ønsker man at se sin webhistorik og evt. gemme favoritter, så klik på stjernen i øverste højrehjørne i mellem Huset og tandhjulet ( standard Windows browser funktionalitet). De gemmes i din profil på serveren indtil profilen gendannes eller slettes. Ønsker man ændre kodeord, så klik efter login på dit navn øverst til højre: Vær opmærksom på at svartiden på visse sider kan tage op til 70 sekunder, hvis der er rigtig mange links på en side. når en url ikke findes i arkivet gives svaret Not in archive eller også vises en tidligere høstet side med samme url. Det kan typisk ske, når et domæne pludselig begynder at linke til at helt andet domæne, som ikke indgår i høstningen. nogle domæner er høstet overraskende mange gange samme dag. Det skyldes i reglen nogle hyppige selektive høstninger eller overlappende høstninger, fx via en anden høstning af andre domæner, hvor der fx er link til domænets forside, fx dr.dk og tv2.dk, som linker til fx til sa.dk. For facebook.com søgninger: Lad være med at bruge forside-url en, men anvend direkte url er som fx http://www.facebook.com/profile.php?id=667790773 Wayback kan være nærtagende mht. /. Hvis for eksempel søgning på url en http://ekstrabladet.dk/nyheder næsten ikke giver resultater så søg også på http://ekstrabladet.dk/nyheder/. 16
https/ftp urler pt. ikke kan ses via Wayback, selv om de er høstet. De gælder bl.a. nyere facebookprofiler (dog ikke mobil interfacet), twitter.com profiler, nyere Youtube watch urler og videoer, e- bøger fra Publizon. der er opsat sikkerhedsfiltre, som forhindrer adgang til OAI høstede e-bøger fra bl.a. Museum Tusculanum. Wayback løbende bliver indexeret (normalt op til for 1-2 døgn siden, men kan i undtagelsestilfælde blive forsinket op til 3 måneder send en mail til info@netarkivet.dk hvis du er i tvivl). * efter høstningsdatoen i kalendervisningen betyder at siden er ændret i forhold til den foregående høstning. forespørgsler nogen gange kan hænge længe p.g.a. nogle bagvedliggende softwareblokeringer, som vi arbejder på at få løst. Man skal bare prøve igen lidt senere. der ikke er foretaget en del domænehøstninger i 2008 pga. driftsnedbrud (pt. kendes ca. 82). alt, hvad du søger på, bliver logget. at visse websider kan fremstå fragmentariske p.g.a. avanceret javascript - f.eks. manglende reklamespots eller billeder. notere og sende de url er til info@netarkivet.dk, som du synes burde være der (det kan være at de ikke er blevet indexeret rigtigt, eller ikke kan vises i Wayback). Sådan refereres til en web side Det mest præcise er URL + proveniens kode og tidspunktet for den aktuelle sides høstning øverst på arkiv websiden i top bjælken. Disse ting tilsammen angiver eksakt, hvad for en URL i arkivet, der henvises til. F.eks. kunne en henvisning se sådan ud: http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har- 005.statsbiblioteket.dk.warc/4773261 (9:01:06 jan 7, 2014 i UTC tid). Det eksakte høstningstidspunkt for websiden, finder du under versions angivelsen i topbjælken f.eks.: Viewing version 1.045 of 1.391 9:01:06 jan 7, 2014 Tiden i proveniensoplysningerne er UTC tid dvs. er 1 eller 2 timer før dansk normal tid - alt afhængig af om det er dansk vintertid eller sommertid. Screenshots kan være udmærkede at supplere med, men de kan let være utydelige og svære at aflæse for udenforstående. Derudover bør du i forbindelse med fremlæggelse af screenshots være opmærksom på, at der ikke vises noget, som kræver tilladelser vedr. personfølsomme oplysninger eller hvor ophavsret kan gøres gældende. Sådan fremfindes en reference til en web side F.eks. har du referencen: http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har- 005.statsbiblioteket.dk.warc/4773261 ( 9:01:06 jan 7, 2014 i UTC tid). Via URL + høstningsdato og tid kan man i Wayback kalender visning finde den eksakte side på følgende måde: 17
URL fremsøges i Wayback og i kalendervisningen findes den høstning som matcher høstnings dato og tidspunkt f.eks. 2014-01-07 09:01. Når man holder musen hen over datoen og tidspunktet skal strengen f.eks. 197800-188-20140107085943-00000-sb-prod-har- 005.statsbiblioteket.dk.warc være den samme som i den angivne reference. 18
DEL III workspace setup et eksempel Klik på favorites i browser toolbaren i Citrix, klik på den grønne pil til venstre lige over favorites fanebladet. Højreklik på de enkelte links i søgeresultat og åben et nyt faneblad med siden hentet fra Wayback. 19
Du kan nu klikke på fanebladene et for et og sammenligne de enkelte udgaver. Hvis du ønsker at se alle høstninger vedr. en url så Klik på et nyt faneblad og log på Wayback søg f.eks. på netarkivet.dk og få den fulde kaldendervisning. 20
Hvis du ønsker at gemme alle dine faneblade til næste gang du logger på så klik på klik på Add current tabs to favorites for at gemme dine aktuelle faneblade. Tilføj navnet for folderen det bliver gemt i. 21
Klik på folderen og se dine enkelte faneblade i folderen. Når du logger ind igen senere kan du bare klikke på en enkelt af dem eller på folderen for at få det dine faneblade genetableret. 22