Coordinación
Biblioteca de catalunya
Colaboración
CESCA
Patrocinio
Generalitat de Catalunya
Soporte
Fundació puntCAT
Miembro
IIPC
Basado en
HERITRIX
nutchwax
WERA
WEBCURATOR
2006
2006   |   2007   |   2008   |   2009   |   2010




Firmado el convenio de cooperación entre la Biblioteca de Catalunya y la Fundación puntCAT para la preservación de las páginas web

El pasado 10 de noviembre del 2006 la Biblioteca de Catalunya firmó el convenio de cooperación con la Fundación punCAT por tal de incluir los recursos digitales con dominio .CAT en el repositorio Patrimonio Digital de Catalunya (PADICAT). El acto de la firma contó con la presencia de la directora de la BC, Dolors Lamarca, y el presidente de la fundación puntCAT, Joan Francesc Gras.

La Fundación puntCAT es una entidad privada y sin ánimo de lucro que tiene por objetivo promover todo tipo de actividades relacionadas con la creación, gestión y control del registro del nombre de dominio .CAT y, en general, de la promoción de la lengua y la cultura catalanas en el ámbito de Internet y de las nuevas tecnologías de la información. Es en esta línea de trabajo donde confluyen las estrategias de ambas instituciones.

El convenio de cooperación permitirá al PADICAT acceder a las páginas web con dominio .CAT para incluirlas al depósito garantizando así la preservación de estos contenidos que componen la Web catalana. En total hay registrados unos 18.000 dominios .CAT.

PADICAT es un repositorio destinado a recoger y preservar toda la producción cultural, científica y de carácter general catalana producida en formato digital. Cuenta con un presupuesto aproximado de 800.000 euros y pretende implicar, por medio de acuerdos de cooperación, a 300 instituciones representativas de la sociedad civil catalana.

volver



Presentación del repositorio Patrimoni Digital de Catalunya

Se ha presentado el repositorio Patrimoni Digital de Catalunya (PADICAT) en la Sala de Llevant de la Biblioteca de Catalunya (BC). El acto ha contado con la presencia de la directora de la BC, Dolors Lamarca, la secretaria de Telecomunicacions i Societat de la Informació del Departament de la Presidència, Marta Continente, el coordinador del proyecto PADICAT, Ciro Llueca, el director del CBUC, Lluís Anglada y el director del CESCA, Miquel Huguet.

PADICAT es un repositorio destinado a recoger y preservar toda la producción cultural, científica y de carácter general catalana producida en formato digital. Cuenta con un presupuesto aproximado de 800.000 euros y pretende implicar, por medio de acuerdos de cooperación, a 300 instituciones representativas de la sociedad civil catalana. Como ha comentado el coordinador de PADICAT, Ciro Llueca, "el objetivo del proyecto es garantizar a los ciudadanos el acceso permanente a las págines web que se realizan en Cataluña, o sobre Cataluña".

Un ejemplo de la utilidad de PADICAT es la acción de captura focalizada sobre las elecciones al Parlamento de Cataluña. Se han definido una serie de recursos digitales (partidos políticos con y sin representación parlamentaria, blogs personales, webs de los candidatos, medios de comunicación, recursos digitales institucionales, fundaciones políticas y entidades de investigación, etc.) y la periodicidad de captura necesaria para asegurar, en el futuro más inmediato, poder acceder a las diferentes versiones de esta producción digital, para Llueca, "esencial para entender un acontecimientro clave de la sociedad catalana como han sido estas elecciones. Será como visitar la hemeroteca digital de los eventos preelectorales, y postelectorales".

El repositorio, que tiene previsto almacenar 10 TB de información una vez consolidado el 2009, se encuentra disponible en tres idiomas, catalán, castellano e inglés, y permite realizar búsquedas por fecha, tipo de documento y dominio, entre otros. También da acceso al histórico de cada web capturada para ver su evolución y ofrece la posibilidad de participar activamente proponiendo webs susceptibles de formar parte del Patrimonio Digital de Cataluña.



volver




PADICAT, la memoria de internet

Coincidiendo con la celebración de la Diada Nacional de Catalunya se ha puesto en marcha públicamente el servidor Patrimoni Digital de Catalunya (PADICAT), un nuevo repositorio destinado a recoger y preservar toda la producción cultural, científica y de carácter general catalana producida en formato digital.

La historia de la humanidad es la historia de su legado. Antiguamente, las tradiciones, el saber y la cultura de un pueblo se transmitía de forma oral. En el siglo XV, con la llegada de la imprenta y con ella el acceso al conocimiento escrito, la preservación del patrimonio pasó a estar mejor garantizada gracias a un nuevo formato, el papel, que permitía su recopilación y preservación en las bibliotecas. Hoy día, la Sociedad de la Información ha puesto a nuestro alcance otra forma de transmisión del conocimiento, el entorno digital.

PADICAT se inició como proyecto el año 2005 y se prevé que esté plenamente consolidado en 2009, año en que tendrá una capacidad de 30 TB y contendrá hasta 100.000 webs y 50 millones de archivos y dará acceso on-line a buena parte de su colección. Este repositorio está impulsado por la Biblioteca de Catalunya y cuenta con la colaboración del CESCA como socio tecnológico y con el soporte de la Secretaria de Telecomunicacions i Societat de la Informació.

El pasado 21 de julio se comenzaron a recopilar de manera automatizada las webs susceptibles de formar parte del Patrimonio Digital de Cataluña, siendo las primeras las del Ayuntamiento de Berga y de Palafrugell, y las de los colegios profesionales de Aparelladors i Arquitectes Tècnics de Tarragona y de Diplomats en Treball Social i Assistents Socials de Catalunya.

También se han iniciado los primeros acuerdos por depósito voluntario con aproximadamente 100 instituciones que han querido participar en el repositorio. Los organismos susceptibles de formar parte son los llamados agentes de la producción digital (autores, editoriales, universidades, colegios profesionales, administración, etc.). La cesión voluntaria de sus webs permite solucionar el problema de su tratamiento y difusión, y a la vez, contribuye a la creación de la memoria histórica digital de Cataluña.

El Patrimonio digital


Las tecnologías de la información y la comunicación han facilitado que la documentación cultural y científica, a parte del resto de información, se presente en formato digital. Este hecho ha supuesto numerosas ventajas: agilidad y rapidez en la producción, facilidad de acceso, difusión en todo el mundo... pero también inconvenientes, como un difícil control, preservación y garantía de acceso permanente. Des de la década de los noventa, administraciones de varios países han promovido estrategias para solucionar estos problemas y asegurar la compilación, el tratamiento, la preservación y la difusión de la producción bibliográfica publicada en internet. Repositorios como PADICAT permiten asegurar este acceso, a la vez que preservan el patrimonio digital del país.

Diversos países, a través de sus bibliotecas nacionales, han iniciado acciones para asegurar la pervivencia de su producción digital, ya que un documento que no exista en otro formato que no sea el electrónico original tiene difícil su preservación. Este hecho es consecuencia de la dificultad de localización, el gran volumen y la baja permanencia de los materiales publicados en internet (el UK Web Archiving Consortium fija en 44 días la media de vida de una página web). Además, la obsolescencia del texto legal español en materia de producción digital y la inexistencia, en la ley de propiedad intelectual del producto digital, de un derecho basado en el principio de copia para la preservación dificultan aún más este objetivo.

Por este motivo, hoy día ya existen varios repositorios digitales nacionales como garantía de acceso a largo plazo a los recursos digitales generados en diferentes países. Los primeros repositorios dedicados a archivar la web nacional han sido el sueco Kulturarw3 y el australiano Pandora, mientras que una iniciativa de carácter más amplio es el repositorio de alcance internacional Internet Archive.

De estas experiencias previas se extraen tres modelos de repositorios digitales nacionales: el integral o exhaustivo, que persigue la integración automática de la web a partir de criterios infraestructurales (lingüísticos, dominio web, ubicación servidor...); el selectivo, dedicado a compilar la web siguiendo una política selectiva (una temática concreta, un espacio geográfico determinado...), y por último, y fruto de una combinación de los dos anteriores existe el modelo híbrido, en el cual se basa PADICAT, que complementa la captura periódica de la web nacional, en este caso la web catalana, con acciones selectivas (acuerdos según intereses temáticos), ampliando el alcance en algunos casos a determinados acontecimientos de interés social como las elecciones autonómicas del próximo mes de noviembre.

De forma más concreta, el alcance temático de PADICAT se centra en las webs bajo dominio .cat, bajo otros dominios (.es, .com, .net, etc.) en lengua catalana, ubicados en servidores de Cataluña u otras webs que no cumplan los requisitos anteriores pero que estan relacionadas temáticamente con Cataluña.


El software

El proceso de funcionamiento de PADICAT consta de tres partes claves: la captura de los recursos, su organización y su acceso permanente. Para la captura de recursos se utiliza el capturador Heritrix, que explora la red y almacena las webs de acuerdo con unos criterios configurados previamente. Para realizar la indexación y como motor de búsquedfa se utiliza la herramienta Nutchwax, inspirada en el buscador Google. Por último, la consulta se muestra mediante Wera, una interfaz para la visualización de los resultados de las búsquedas.

El repositorio está desarrollado con programario libre. Concretamente, el capturador Heritrix es el mismo programario que utiliza, des de 1996, el Internet Archive, cosa que garantiza su eficiencia para este tipo de repositorios. Además, el resto de aplicaciones que forman parte del repositorio están gestionadas por la misma institución, quien también lleva a cabo su desarrollo.

Por otro lado, PADICAT se aloja en el clúster de e-información de alta disponibilidad del CESCA, donde también de encuentran los otros repositorios, TDX, RACO y RECERCAT, en los que el Centro también participa.

Por todo esto, PADICAT confecciona la bibliografía nacional más allá de los formatos tradicionales y se convierte en el protagonista de futuras investigaciones y de la preservación y transmisión del patrimonio digital de Cataluña, entendido com un sistema útil para la sociedad y las instituciones que la forman.


volver