Para qué sirve robots.txt

14 de junio de 2010
Victor Perez Acosta

Los archivos robots.txt son un claro ejemplo de cómo pequeños detalles pueden obrar maravillas al momento de optimizar la indexación de nuestros sitios. Este archivo es un pequeño documento de texto –que no puede pesar más de 10k-cuya misión es indicarle a los bots de los buscadores qué páginas de nuestro sitio indexar, y cuáles no. Este archivo debe colocarse en el servidor donde tenemos la página hosteada, pues su misión es “interceptar” todo intento de indexación del sitio.

Qué es robots.txt

Un error de concepto común es creer que sólo los buscadores nos pueden indexar. Hay muchos sitios que se dedican a leer y recolectar la información de los sitios que están online, sin necesidad de ser buscadores. Un ejemplo muy concreto son los bots de Alexa. Alexa es un sitio que se dedica a ofrecer información estadísticas de tráfico y términos de búsquedas de todos los sitios webs. Otro bot que nos puede indexar es el de http://www.archive.org, un sitio web que recolecta lecturas periódicas de páginas web constituyendo algo así como un servicio de bookmarking para los usuarios, quienes pueden acceder a las páginas con una mirada histórica de su evolución.

Pero, también hay bots maliciosos que podrían llegar a causarnos muchos problemas, al ser verdaderos spyware y podrían llegar a infectar muchos millones de ordenadores diariamente, a partir de un virus –troyano o spyware- residente en nuestro servidor que ellos mismos instalan. Para evitar que estos bots accedan a nuestro servidor, pues está robots.txt. A partir de instrucciones que volcaremos en este archivo, impediremos que los bots que no nos interesa no accedan a nuestro contenido.

También podemos incluir restricciones de horario –pedir que no nos indexen a determinadas horas, cuando el tráfico en nuestra página es pico, o que nos indexen con cierta frecuencia determinada. Si no estamos muy seguros de esto, lo mejor es no realizar ninguna petición a este respecto.

Las instrucciones que se emplean para elaborar el robots.txt son muy sencillas, básicamente dos: allow –que indica qué directorios pueden ser indexados- y disallow –justamente lo opuesto. Por ejemplo:

User-agent: *    # Indica que nos referimos a todos los bots (los user agents)
Disallow: /      # con esta instrucción impedimos la indexación de todo nuestro sitio
Disallow: /contactenos   # indica a los bots que no indexe la página “contáctenos”

Una forma de entender cómo redactar un archivo robots txt, y comprender su semántica es ver un ejemplo. Aquí podemos encontrar el robots.txt de Wikipedia, un ejemplo verdaderamente completo, que puede ser tomado de base para elaborar nuestro propio robots.txt.

Si le ha gustado este post y quiere colocarlo en su sitio, puede hacerlo sin inconvenientes, siempre y cuando cite como fuente a www.vpa-internet.com.ar/blog

bots, crawlers, indexación de sitios, robots.txt, spiders

Sobre Nosotros y este Blog

Somos una agencia de Marketing Digital especializada en generar resultados estratégicos y medibles para potenciar el crecimiento de nuestros clientes en el entorno digital.

Aprende Más de Nosotros

Solicita una Cotización

Impulsamos tu posicionamiento SEO con estrategias avanzadas, combinando análisis de datos, optimización técnica y contenido de alto impacto para competir y destacar en los primeros puestos, incluso en nichos altamente competitivos.

Contáctanos

Suscríbete a Nuestro Boletín

Para qué sirve robots.txt

Qué es robots.txt

Sobre Nosotros y este Blog

Solicita una Cotización

Cómo los Cambios en el Algoritmo de Google en 2025 Impactarán tu Negocio

El Marketing Basado en IA: Cómo las Empresas se Adaptan al Futuro

Cómo las Empresas Están Usando GPT para Crear Contenidos de Alto Impacto

SEO en la Era de la IA: Cómo Mantenerse en la Cima de Google

+54 (261) 561 1273