RSS congestiona el tráfico de algunas webs
21 julio 2004
Netcraft, sitio conocido por sus estadísticas mensuales sobre el WWW, publicó hace unos días un artículo acerca de los problemas de escala de RSS en algunos sitios populares. RSS Traffic Burdens Publisher's Servers, relata cómo los suscriptores de los titulares de Inforworld parecieran realizar un ataque distribuido al sitio:
«Infoworld.com experiences a "massive surge of RSS newsreader activity at the top of every hour," according to Chad Dickerson, the CTO of Infoworld. "If I didn’t know how RSS worked, I would think we were being slammed by a bunch of zombies sitting on compromised home PCs," Dickerson writes. "Our hourly RSS surge has all the characteristics of a distributed DoS attack, and although the requests are legitimate and small, the sheer number of requests in that short time period creates some aggravating scaling issues"».
Por supuesto, se trata de un uso inocente. Chad Dickerson explica el problema con más detalle en su columna RSS growing pains:
«Several months ago, I spoke to a Web architect at a large media site and asked why his site didn’t support RSS. He raised the concern that thousands (or even millions) of dumb clients could wreak havoc on a popular Web site».
Una mirada al fichero RSS de Inforworld con el navegador Mozilla Firefox nos muestra que no se envía la cabecera HTTP con la fecha de la última modificación, con lo cual se obliga a los agregadores habituales -que suelen estar bien programados- a descargarse no solo la cabecera, sino el fichero completo para comprobar si hay nuevas noticias. El protocolo HTTP permite solicitar la cabecera (HEAD) de una URL, para obtener información sobre cuánto pesa el archivo, el tipo de contenido, etc.
Pero en los gestores de contenidos que utilizan páginas dinámicas, como Blogalia, PHPNukes, etc, cada petición genera el fichero al vuelo, y por tanto, HEAD apenas da información directa, y hay que descargar el archivo completo. Esto se puede suplir programáticamente enviando la cabecera If-Modified-Since. A ver si Infoworld toma nota.
En todo caso, hay que tener cuidado con los agregadores, ya que si se popularizan y están incorrectamente programados, pueden devorar rápidamente el ancho de banda de nuestro sitio. La alternativa es utilizar servicios centralizados como Feedmania.