Archivo robots.txt y semántica SEO

El archivo robots.txt es un buen ejemplo de cómo pequeños detalles en el mundo de la promoción web pueden ayudar a optimizar la indexación de página web.

Este archivo es un pequeño documento de texto, que no puede pesar más de 10 kB, cuya misión es indicarle a los bots de los buscadores qué páginas de nuestro sitio indexar, y cuáles no. Este archivo debe colocarse en el servidor donde tenemos la página hosteada, pues su misión es "interceptar" todo intento de indexación del sitio.

Un error de concepto común es creer que sólo los buscadores nos pueden indexar. Hay muchos sitios que se dedican a leer y recolectar la información de los sitios que están online, sin necesidad de ser buscadores. Un ejemplo muy concreto son los bots de Alexa. Alexa es un sitio que se dedica a ofrecer información estadísticas de tráfico y términos de búsquedas de todos los sitios webs. Otro bot que nos puede indexar es el de http://www.archive.org, un sitio web que recolecta lecturas periódicas de páginas web constituyendo algo así como un servicio de bookmarking para los usuarios, quienes pueden acceder a las páginas con una mirada histórica de su evolución.

Pero, también hay bots maliciosos que podrían llegar a causarnos muchos problemas, al ser verdaderos spyware y podrían llegar a infectar muchos millones de ordenadores diariamente, a partir de un virus -troyano o spyware- residente en nuestro servidor que ellos mismos instalan. Para evitar que estos bots accedan a nuestro servidor, pues está robots.txt. A partir de instrucciones que volcaremos en este archivo, impediremos que los bots que no nos interesa no accedan a nuestro contenido.

También podemos incluir restricciones de horario como, por ejemplo, pedir que no nos indexen a determinadas horas, cuando el tráfico en nuestra página es pico, o que nos indexen con cierta frecuencia determinada. Si no estamos muy seguros de esto, lo mejor es no realizar ninguna petición a este respecto.

Las instrucciones que se emplean para elaborar el robots.txt son muy sencillas, básicamente dos: allow -que indica qué directorios pueden ser indexados- y disallow -justamente lo opuesto. Por ejemplo:
  • User-agent: * # Indica que nos referimos a todos los bots (los user agents)
  • Disallow: / # con esta instrucción impedimos la indexación de todo nuestro sitio
  • Disallow: /contactenos # indica a los bots que no indexe la página "contáctenos"
Una forma de entender cómo redactar un archivo robots.txt, y comprender su semántica es ver un ejemplo. En http://es.wikipedia.org/robots.txt podemos encontrar el robots.txt de Wikipedia, un ejemplo verdaderamente completo, que puede ser tomado de base para elaborar nuestro propio robots.txt.