Programari

Posteriorment a la fase d’anàlisi i test de programari es va determinar que s’utilitzaria el programa informàtic Heritrix, emprat en la major part de projectes de captura de recursos digitals. Aquest és el programa encarregat de compilar les pàgines web tal com les veu l’usuari que navega per Internet i emmagatzemar-les en arxius comprimits en format ARC. A continuació, el programari Heritrix es complementa amb NutchWax, o bé la combinació d’Hadoop i Wayback, que duen a terme uns processos d’indexació de la informació compilada que permeten, ulteriorment, utilitzar aquests índexs per localitzar els recursos dins de la col·lecció mitjançant les seves respectives interfícies de consulta: Wera, que permet la cerca per paraules clau a través dels índexs generats per NutchWax; i Wayback, que permet la consulta directa per URL en els índexs generats per Hadoop i el mateix Wayback.


S’ha aprofitat el programa Web Curator Tool, desenvolupat per la National Library of New Zealand i la British Library, com a sistema de gestió documental que permet l’assignació de metadades a una part significativa de la col·lecció, amb la intenció de poder integrar, en el futur, els fons del dipòsit a la cerca en altres catàlegs, tant de la Biblioteca de Catalunya com d’altres institucions.

El PADICAT també ha fet aportacions al desenvolupament en xarxa d’aquests programaris:

Ciro Llueca; Daniel Cócera; Natalia Torres; Gerard Suades; Ricard de la Vega (2010). "CAT (Curator Archiving Tool): improving access to web archives = CAT (Curator Archiving Tool): millorant l'accés als arxius web = CAT (Curator Archiving Tool): mejorando el acceso a los archivos web". International Internet Preservation Consortium meeting (Vienna).
http://www.recercat.net/bitstream/2072/85525/2/Padicat_iipc_2010_CAT.pdf