Para qué sirve robots.txt
- 14 junio, 2010
- Victor Perez Acosta
Los archivos robots.txt son un claro ejemplo de cómo pequeños detalles pueden obrar maravillas al momento de optimizar la indexación de nuestros sitios. Este archivo es un pequeño documento de texto –que no puede pesar más de 10k-cuya misión es indicarle a los bots de los buscadores qué páginas de nuestro sitio indexar, y cuáles no. Este archivo debe colocarse en el servidor donde tenemos la página hosteada, pues su misión es “interceptar” todo intento de indexación del sitio.
Qué es robots.txt
Un error de concepto común es creer que sólo los buscadores nos pueden indexar. Hay muchos sitios que se dedican a leer y recolectar la información de los sitios que están online, sin necesidad de ser buscadores. Un ejemplo muy concreto son los bots de Alexa. Alexa es un sitio que se dedica a ofrecer información estadísticas de tráfico y términos de búsquedas de todos los sitios webs. Otro bot que nos puede indexar es el de http://www.archive.org, un sitio web que recolecta lecturas periódicas de páginas web constituyendo algo así como un servicio de bookmarking para los usuarios, quienes pueden acceder a las páginas con una mirada histórica de su evolución.
Pero, también hay bots maliciosos que podrían llegar a causarnos muchos problemas, al ser verdaderos spyware y podrían llegar a infectar muchos millones de ordenadores diariamente, a partir de un virus –troyano o spyware- residente en nuestro servidor que ellos mismos instalan. Para evitar que estos bots accedan a nuestro servidor, pues está robots.txt. A partir de instrucciones que volcaremos en este archivo, impediremos que los bots que no nos interesa no accedan a nuestro contenido.
También podemos incluir restricciones de horario –pedir que no nos indexen a determinadas horas, cuando el tráfico en nuestra página es pico, o que nos indexen con cierta frecuencia determinada. Si no estamos muy seguros de esto, lo mejor es no realizar ninguna petición a este respecto.
Las instrucciones que se emplean para elaborar el robots.txt son muy sencillas, básicamente dos: allow –que indica qué directorios pueden ser indexados- y disallow –justamente lo opuesto. Por ejemplo:
User-agent: * # Indica que nos referimos a todos los bots (los user agents)
Disallow: / # con esta instrucción impedimos la indexación de todo nuestro sitio
Disallow: /contactenos # indica a los bots que no indexe la página “contáctenos”
Una forma de entender cómo redactar un archivo robots txt, y comprender su semántica es ver un ejemplo. Aquí podemos encontrar el robots.txt de Wikipedia, un ejemplo verdaderamente completo, que puede ser tomado de base para elaborar nuestro propio robots.txt.
Si le ha gustado este post y quiere colocarlo en su sitio, puede hacerlo sin inconvenientes, siempre y cuando cite como fuente a www.vpa-internet.com.ar/blog
Sobre Nosotros y este Blog
Somos una empresa de Marketing Digital que se enfoca en ayudar a sus clientes a alcanzar excelentes resultados en diversas áreas del Marketing en Internet.
Solicita una Cotización
Ofrecemos servicios SEO profesionales que ayudan a los sitios web a incrementar drásticamente su posicionamiento orgánico a fin de competir en las más altas posiciones incluso en keywords muy competitivas.
Suscríbete a Nuestro Boletín