La vida de los enlaces
12 abril 2012
En casa de Fernando Tricas siempre cuentan cosas interesantes. En una entrada reciente, comenta La vida de los enlaces y lo digital:
«Solemos asumir que lo digital es para siempre. Pero cualquiera que acumule suficiente información sabe que a veces es difícil encontrarla, en otros casos se estropea y, desde luego, cuando está en servicios de terceros hay una probabilidad no despreciable de que más cosas vayan mal. Es un tema viejo por aquí, recuerden ¿Tendremos toda esta información en el futuro?. Cobra actualidad por el artículo que podemos leer en A Year After the Egyptian Revolution, 10% of Its Social Media Documentation Is Already Gone».
En los comentarios, Anónima decía: «Dados un instante t y un intervalo Δt, cuanto mayor es Δt, más probable es que toda información de un tiempo t-Δt que uno desee encontrar haya desaparecido». Como esas cosas hay que comprobarlas, decidí a hacer un pequeño experimento con los marcadores de del.icio.us.
En delicious.com/rvr tengo archivados unos 4000 enlaces desde el año 2004. Descargué la copia de seguridad, que es un fichero HTML con todos esos enlaces y sus metadatos: fecha, título, etiquetas. Con un programa en python, procesé ese fichero para recorrer los enlaces y guardar el estado de cada uno (si la página está viva o no). Con otro pequeño programa, procesé los estados para hacer las estadísticas. Estos son los resultados:
Como vemos, hay una correlación entre la antigüedad de los enlaces y la probabilidad de estar muertos. Para ver el 10% que citaban de la revolución egipcia, en el caso de mi delicious hay que remontarse tres años (2009). Pero a 6 años vista, una cuarta parte de los enlaces están ya desaparecidos. Por supuesto, la muestra es muy pequeña y no tiene por qué ser representativa. Sería interesante compararlo con otras cuentas y ampliar el periodo: ¿cuántos enlaces siguen vivos después de 10 o 15 años? ¿Ocurre lo mismo con la información en otros soportes? ¿Descansarán estas páginas en alguna recóndita caché de Google?
Imagino que en algún momento del futuro los bibliotecarios comenzarán a preocuparse no solo por digitalizar la información del pasado remoto, sino por preservar también la del presente.
Por si tienes interés, el código para generar estos datos está disponible en github.com/vrruiz/delicious-death-links. La hoja de cálculo también está disponible en Google Docs.