Coordinació
Biblioteca de catalunya
Col·laboració
CESCA
Patrocini
Generalitat de Catalunya
Suport
Fundació puntCAT
Membre
IIPC
Recolzat en
HERITRIX
nutchwax
WERA
WEBCURATOR
WAYBACK
PMF (Preguntes Més Freqüents) sobre el PADICAT

  • ¿Què és el PADICAT?
  • ¿Què puc fer per a que el meu web aparegui al PADICAT?
  • ¿Què puc fer per a que el meu web NO aparegui al PADICAT?
  • ¿Per què quan visito algun dels webs capturats, no puc veure algunes imatges ni accedir a alguns enllaços?
  • ¿Què captura PADICAT de cada lloc web?
  • Vaig recomanar el meu web per a formar part de la col·lecció i no el trobo a la base de dades, ¿per què?
  • ¿Quin volum de dades i quina capacitat té el PADICAT?
  • ¿Quin maquinari fa servir el PADICAT?
  • ¿Quin programari fa servir el PADICAT?
  • ¿PADICAT pot capturar i mostrar correctament tota mena de webs?
  • ¿L'idioma amb el qual realitzo la cerca influeix en el retorn dels resultats?
  • Ajuda a la cerca
  • ¿Què conté el PADICAT?
  • Dubtes i suggeriments




    ¿Què és el PADICAT?

    És una iniciativa de la Biblioteca de Catalunya que consisteix a capturar, processar i donar accés permanent a tota la producció cultural, científica i de caràcter general catalana produïda en format digital. En definitiva, l'objectiu és arxivar el web català.

    L'explicació completa i detallada sobre la finalitat, els objectius i el funcionament es troba l’apartat ¿Què és?.


    tornar




    ¿Què puc fer per a que el meu web aparegui al PADICAT?

    PADICAT té diferents vies de captura de webs: la captura sistemàtica de webs sota domini .cat, la captura de webs de les institucions amb les quals la Biblioteca de Catalunya ha signat un conveni de col·laboració, la captura dels webs que es consideren pertinents a partir de la cerca per navegació, i la captura dels webs que (comprovada la seva pertinença) s’incorporen a la col·lecció a través de les recomanacions dels usuaris.

    Si voleu que el seu web passi a formar part de la col·lecció del PADICAT, podeu trametre les vostres recomanacions omplint un breu formulari a l'apartat Proposar un web.

    A partir que un web entra a formar part del dipòsit, es captura un mínim de dos cops l'any, podent-ne incrementar la freqüència en un futur.

    El lapse de temps entre la proposta i que sigui visible en la nostra col·lecció, pot oscil·lar entre els 6 i els 12 mesos.


    tornar




    ¿Què puc fer per a que el meu web NO aparegui al PADICAT?

    Es pot evitar formar part de la col·lecció amb la simple inclusió d’un fitxer robots.txt que impedirà que el web sigui visitat pel nostre robot.

    El robot que utilitzem s’identifica com a PADICAT, i segueix l' Standard for Robot Exclusion (SRE), la qual cosa vol dir que no entra en cap web o part component d’un lloc web que hagi estat protegit amb aquest mètode, a menys que s’hagi pactat i autoritzat prèviament entre la institució i la Biblioteca de Catalunya



    tornar




    ¿Per què quan visito algun dels webs capturats, no puc veure algunes imatges ni accedir a alguns enllaços?

    El propòsit del PADICAT és preservar els webs tal i com eren en el moment de la captura. Així mateix, vol oferir als usuaris la possibilitat de navegar pels llocs web capturats de la mateixa manera que si ho fessin a través del web real.

    No obstant, sovint hi ha elements que dificulten la visualització òptima d’aquests webs així com la navegació entre els hiperenllaços. 3 consells bàsics per evitar algunes anomalies en la visualització dels webs capturats són:

    • No utilitzeu adreces que incloguin la URL a les pàgines del mateix web. Per tant, en comptes de:

      http://www.exemple.cat/imatges/logotip.jpg

      o bé,

      http://www.exemple.cat/menu.html,

      és més aconsellable:

      /imatges/logotip.jpg

      i

      /menu.html

    • No utilitzeu l'etiqueta (tag) d'HTML refresh per redirigir a una altra pàgina. Exemple:

      < html >
      < head >
      ....
      < meta http-equiv="refresh" content="2;url=http://exemple.cat" >
      ....
      < /head >
      ....
      < /html >

    • No inclogueu pedaços de pàgines externes, ja siguin imatges, scripts o altres.


    Per a obtenir una explicació més detallada de les causes que generen aquestes incidències, i consells per tal d’evitar-les si s’és propietari d’un web, vegeu ¿PADICAT pot capturar i mostrar correctament tota mena de webs?.


    tornar




    ¿Què captura PADICAT de cada lloc web?

    PADICAT captura només els llocs web i les parts dels llocs web que són obertes i accessibles des d'Internet. A part de respectar les limitacions que els propietaris d’un lloc web puguin articular (vegeu ¿Què puc fer per a que el meu web NO aparegui al PADICAT?), PADICAT no entra ni captura cap pàgina web que requereixi un password, formulari, etc., com puguin ser, per exemple, les àrees reservades per als col·legiats d’una associació professional, o als subscriptors d’una publicació, etc


    tornar




    Vaig recomanar el meu web per a formar part de la col·lecció i no el trobo a la base de dades, ¿per què?

    El PADICAT compta, actualment, amb 4 servidors ProLiant DL360 G4p treballant al 100% del rendiment a temps complet. Tot i així, la gran quantitat de recursos a capturar, fa que es formin cues d’espera, que poden ralentitzar la captura dels recursos proposats.

    Com s’esmenta a ¿Què puc fer per a que el meu web aparegui al PADICAT?, el plaç entre que un web és proposat fins que apareix a la col·lecció, pot oscil·lar entre els 6 i els 12 mesos.


    tornar




    ¿Quin volum de dades i quina capacitat té el PADICAT?

    El volum de dades emmagatzemades a PADICAT es pot consultar a través de l’apartat Què tenim del nostre web, on les xifres s’actualitzen periòdicament.


    tornar




    ¿Quin maquinari fa servir el PADICAT?

    El PADICAT té a la seva disposició set nodes HP ProLiant DL360 G4p encarregats de les tasques de recol·lecció i indexació dels webs.





    D’altra banda, de la cerca i visualització de resultats a la interfície web se n’encarrega un clúster Linux d’alta disponibilitat amb característiques de balanceig de càrrega de peticions i de tolerància a fallades en cas de desastre en els nodes que composen la plataforma.

    Els nodes estan connectats mitjançant fibra a una Storage Area Network (SAN) i el sistema es completa amb un robot on es guarden, en cinta, còpies de seguretat de les dades.






    tornar




    ¿Quin programari fa servir el PADICAT?

    Per a la captura, la indexació i l’accés als recursos emmagatzemats s’utilitzen diversos programaris. Heritrix és l’encarregat de recol·lectar les pàgines web tal com les veu l'usuari que navega per Internet, i emmagatzemar-les en arxius comprimits en format ARC. Després, NutchWax i Hadoop realitzen un procés d’indexació de la informació recol·lectada que permetrà, posteriorment, utilitzar aquests índexs per a localitzar recursos dins de la col·lecció.

    Existeixen dues interfícies per a realitzar les consultes al conjunt de recursos capturats: WERA, que permet la cerca per paraules clau a través dels índexs generats per NutchWax, i Wayback, que permet la consulta directa per URL.





    S'utilitz el programa Web Curator Tool per a la catalogació dels recursos capturats.

    Tot el programari que usa el PADICAT és de codi obert i gratuït, i ha estat desenvolupat per organitzacions sense ànim de lucre associades a l'International Internet Preservation Consortium (IIPC) del qual la Biblioteca de Catalunya n’és membre.


    tornar




    ¿PADICAT pot capturar i mostrar correctament tota mena de webs?

    A causa d'irregularitats en el programari de visualització d'arxius i a inconsistències durant l'arxivament d'aquests llocs (per exemple exclusions de robots.txt), alguns llocs poden no mostrar-se apropiadament (enllaços externs, formularis i caixes de cerca, imatges caigudes) o redirigir-se a la versió actual del lloc web.

    Els webs que usen estàndards d’accessibilitat i llenguatge html, no han de tenir problemes de captura ni de visualització un cop arxivades a PADICAT. D’altra banda, però, hi ha certs elements que poden dificultar tant la captura dels recursos com, sobretot, la posterior visualització dins la col·lecció. Algunes recomanacions:

    Per a la captura de la pàgina:

    -robots.txt; PADICAT, per norma general, respecta els webs que utilitzen elements d’exclusió.

    Per a la navegació i visualització de la versió capturada:

    Enllaços:

    -enllaços: imatges, scripts, etc. d’altres webs externes. Si aquests elements pertanyen a una web externa, no es mostraran correctament un cop la web sigui capturada pel PADICAT. Es recomana emmagatzemar aquests logotips en el directori d’imatges del vostre servidor i utilitzar paths relatius en la vostra pàgina.
    -utilitzar paths relatius i/o absoluts per a construir l'enllaç en lloc d’utilitzar URLs completes.
    -no utilitzar scripts per a construir dinàmicament els enllaços.
    -evitar la incrustació d’objectes flash on els enllaços són absoluts.
    -evitar utilitzar l’etiqueta base href.
    -evitar enllaços a URLs que després es redireccionen a una altra pàgina.

    Llenguatges interpretats:

    -evitar la utilització de variables locals al servidor que ens permeten variar l’aspecte de la pàgina que estem visualitzant, com per exemple, els canvis d’idioma i els canvis dinàmics de menús.

    Codificació:

    -PADICAT utilitza la codificació UTF-8 per a la visualització dels caràcters. Poden produir-se errors en la visualització dels llocs web (ex.: diacrítics, et al.) que utilitzin una codificació diferent (ex.: Latin-1), i aquesta no estigui especificada en el lloc web original. Així doncs, es recomana especificar la codificació utilitzada en el lloc web.

    Recomanacions d’accessibilitat:

    -es recomana evitar la utilització de marcs, ja que pot dificultar el procés d’indexació de la pàgina, i, per tant, la posterior recuperació d’aquesta pàgina en la cerca per text.
    -es recomana oferir alternatives d’accés a la informació en aquelles pàgines que utilitzin codi JavaScript, ja que hi ha dispositius que no suporten aquest codi o tenen l’opció del navegador desactivada.

    Altres recomanacions per als webmasters:

    -utilitzar pàgines amb poc pes.
    -no carregar moltes imatges en la mateixa pàgina.
    -seguir les normes d’accessibilitat (marcs, codificació, etc.).
    -no utilitzar espais en els noms dels arxius.


    tornar




    ¿L'idioma amb el qual realitzo la cerca influeix en el retorn dels resultats?

    Els índexs generats amb el programari -a partir de les pàgines web capturades-  que s’utilitzen per a la cerca per paraules claus són únics; és a dir, són independents de l’idioma que l'usuari escull de la interfície de consulta de PADICAT, i depenen únicament de l'idioma en que està escrit el web capturat.

    Per tant, els termes de cerca haurien de ser independents de l’idioma amb el que l’usuari està navegant per PADICAT. Tot i això, s’obtindrà un major nombre de resultats si els termes introduïts per a realitzar la cerca són en català.


    tornar




    Ajuda a la cerca

    Consells per a la cerca

    -Per cercar per text lliure, utilitzeu la cerca per paraula
    -Per cercar un domini concret, utilitzeu la cerca per URL

    Consells per a la cerca avançada

    -Introduïu un o més termes a cercar
    -Si s'escau especifiqueu el domini sobre el que voleu fer la cerca
    -Per a limitar els resultats a un període de temps especifiqueu la data d'inici i fi
    -Per seleccionar un format d'arxiu per als resultats especifiqueu un tipus
    -Per a cercar dins un esdeveniment seleccioneu la col·lecció corresponent; si voleu cercar a tots els recursos seleccioneu “Totes”

    Cerques combinades i/o expertes

    -La paraula pot ser completa o truncada (p.e.: aju per trobar ajuntament i ajut)
    -Si introduïu un o més termes a cercar, el sistema recuperarà els recursos que continguin tots els termes de cerca introduïts
    -Utilitzeu l'operador AND per recuperar recursos que continguin totes les paraules que heu introduït (p.e.: regidor AND eleccions)
    -Utilitzeu l'operador OR per recuperar recursos que continguin alguna de les paraules que heu introduït (p.e.: educació OR formació)
    -Utilitzeu les cometes ("") per cercar una frase exacta (p.e.: "roda de ter")


    tornar




    ¿Què conté el PADICAT?

    A l’apart ¿Què tenim? es pot consultar el nombre de webs conté PADICAT i el nombre de captures realitzades en diferents dates d’aquests webs. També s’indica quin és el nombre de fitxers que composen totes les captures que es troben al dipòsit. Aquests fitxers son principalment pàgines web, aproximadament un 70% d'html, un 10% d'imatges, 2% de PDF, etc. (per a les dades exactes dels tipus d’arxius que composen els webs de PADICAT consulteu la nota de premsa).
    Per últim, es mostra l’espai ocupat, que inclou la mida dels arxius comprimits ARC que emmagatzemen les captures i la dels índexs.

    Aquestes dades s’actualitzen automàticament quan s’incorporen nous recursos a la col·lecció.


    tornar





    Dubtes i suggeriments

    Si teniu algun dubte que no hagi quedat resolt o algun suggeriment per a realitzar-nos, ho podeu fer a través del següent formulari.


    tornar