L'HTML predomina a la Web catalana
20-12-2007
El PADICAT (Patrimoni Digital de Catalunya), liderat per la Biblioteca de Catalunya amb el suport del Centre de Supercomputació de Catalunya, ha realitzat un exhaustiu anàlisi dels formats i tecnologia utilitzada en la Web catalana, en base a una mostra de 1.000 pàgines web de tota índole.
La radiografia d'aquestes 1.000 pàgines web incloses al dipòsit digital del PADICAT permet afirmar que com a mitjana, cada pàgina web de Catalunya ocupa 1,33 GB de volum i conté una mitjana de 33.942 fitxers informàtics. Mai abans s'havia analitzat la composició de la Web catalana amb aquest significatiu mostreig.
Webs incloses al PADICAT/mostra de l'estudi | 1.004 |
---|---|
Captures de diverses edicions de cada web | 2.720 |
Número total de fitxers informàtics | 34.077.807 |
Mitjana de fitxers per cada pàgina web | 33.942 |
Volum total del dipòsit PADICAT | 1.339,24 GB |
Mitjana de volum per cada pàgina web | 1,33 GB |
D’altra banda, es confirma en l'estudi que els formats més habituals a la Internet catalana són l'html (71,69%), gif (2,45%), i pdf (1,32%), seguits d'altres tipus menys habituals. Per als responsables del PADICAT, la presència majoritària de formats tan populars com aquests, que sumen el 82,5% del total de formats existents a la Web catalana, permet dibuixar un futur positiu pel que fa a la preservació dels recursos digitals a Internet.
Format | Fitxers | Volum (GB) | % Fitxers | % Volum |
---|---|---|---|---|
text/html | 24.429.679 | 592,45 | 71,69% | 55,83% |
image/jpg | 2.416.055 | 123,81 | 7,09% | 11,67% |
image/gif | 834.019 | 6,79 | 2,45% | 0,64% |
application/pdf | 449.983 | 167,34 | 1,32% | 15,77% |
no-type | 75.070 | 0,16 | 0,22% | 0,02% |
image/png | 72.905 | 1,51 | 0,21% | 0,14% |
application/x-shockwave- flash | 68.379 | 5,62 | 0,20% | 0,53% |
application/msword | 42.150 | 5,31 | 0,12% | 0,50% |
text/plain | 39.962 | 15,77 | 0,12% | 1,49% |
text/css | 35.668 | 0,17 | 0,10% | 0,02% |
text/xml | 35.583 | 0,46 | 0,10% | 0,04% |
application/x-javascript | 23.882 | 0,18 | 0,07% | 0,02% |
image/pjpeg | 14.514 | 0,38 | 0,04% | 0,04% |
audio/mpeg | 10.319 | 41,1 | 0,03% | 3,87% |
application/atom+xml | 10.264 | 0,05 | 0,03% | 0,00% |
image/bmp | 10.202 | 2,23 | 0,03% | 0,21% |
audio/x-ms-wma | 8.869 | 25,78 | 0,03% | 2,43% |
application/download | 8.122 | 0,3 | 0,02% | 0,03% |
application/zip | 5.730 | 11,49 | 0,02% | 1,08% |
application/xml | 5.396 | 0,05 | 0,02% | 0,00% |
application/vnd.ms-excel | 5.222 | 0,55 | 0,02% | 0,05% |
La Biblioteca de Catalunya, que forma part de l'International Internet Preservation Consortium amb 26 institucions més, té amb el PADICAT l'objectiu de preservar les pàgines web de Catalunya, per garantir-ne el seu accés permanent. El PADICAT compta amb l'adhesió de 287 institucions de tot tipus.