Robots.txt

¿Cómo aprovechar el robots.txt para mejorar tu SEO?

|

Tiempo de lectura: 4 minutos

Actualizado el viernes, 25 noviembre, 2022

Usar bien el archivo robots.txt es fundamental para tener tu web correctamente indexada en las bases de datos de los motores de búsqueda, y, por lo tanto, beneficiar al SEO. Este archivo te permitirá tener cierto control sobre qué contenidos pueden o no ser indexados. Pero, ¿qué es?, ¿cómo crearlo?, ¿dónde se coloca? Te damos algunas pistas sobre robots.txt y cómo puede ayudarte a mejorar tu SEO.

¿Qué es el robots.txt y para qué sirve?

Para encontrar nuevas webs o actualizar información de las que ya existentes en sus bases de datos, los motores de búsqueda utilizan mecanismos (softwares) conocidos como Robots, Spiders o Crawlers que barren constantemente internet buscando nuevas páginas o revisitando otras para actualizar la información.

Para ayudar a los motores a indexar la información de tu web puedes (y debes) utilizar dos pequeños archivos en formato texto para orientarlos y ayudarles a obtener la información con más facilidad: el robots.txt y el Sitemap.

El robots.txt es un archivo de texto plano con algunas reglas que funciona como un filtro para los robots y hace que puedas controlar los permisos de acceso a determinadas páginas o carpetas de tu web. Es el primer archivo que consultará el robot y todos los robots acreditados respetan las directivas del archivo robots.txt.

El contenido del archivo robots.txt

La configuración del robots.txt es importante porque:

  • Ayuda a indexar mejor tu web el contenido de tu página con lo que mejora tu posicionamiento.
  • Impide el acceso a determinados robots además de limitar la información que quieres mostrar, de forma que los datos personales privados no puedan ser encontrados.
  • Reducen la sobrecarga del servidor. Algunos robots se dedican a hacer muchas peticiones que pueden saturar el servidor y provocar que la navegación por la página sea más lenta.

Para orientar a los robots, existen algunas reglas que debes seguir. Los comandos principales para un archivo robots.txt simple utiliza varias reglas:

  • User-agent: identifica para qué mecanismo de rastreo son las instrucciones que se incluyen
  • Disallow: informa qué páginas no deben ser analizadas por los rastreadores.
  • Allow: informa qué páginas deben ser analizadas por los rastreadores.
  • Sitemap: muestra la localización del sitemap de tu web, importante para que los rastreadores encuentren las nuevas entradas.
  • Crawl-delay: indica al robot el número de segundos que debe esperar entre cada página. Es muy útil para reducir la carga del servidor. El tiempo recomendado es de 5-10 segundos, desde dinahosting siempre recomendamos 10 segundos.

También puedes utilizar comodines:

  • Asterisco (*): vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por «directorio» serían «/directorio*/»
  • Dólar ($): indica el final de un URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .inc se utilizaría «/.inc$».

Funcionamiento del robots.txt

Ejemplos:

Un ejemplo de robots.txt básico:

User-Agent: 
*Disallow: /nombrecarpeta/
Sitemap: http://tudominio.com/sitemap.xml

Ejemplo de un archivo robots.txt más complejo:

User-agent: 
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /imagenes/
Disallow: /tecnologia/
Allow: /tecnologia/computadoras
Crawl-delay: 10
User-agent: googlebot
Disallow: /categorias/
Disallow: /plantillas/
Sitemap: http://www.tudominio.com/sitemap.xml

Explicaciones:

  • Línea 1: indica que las líneas posteriores (líneas 3 a 6) serán indexadas y seguidas por todos los robots de todos los motores de búsqueda.
  • Líneas 2 a 5: indican qué carpetas no serán indexadas para todos los robots
  • Línea 6: indica que aunque la carpeta «tecnologia» no debe ser indexada, la subcarpeta computadoras sí puede ser leída
  • Línea 7: indica que los robots tienen que esperar 10 segundos entre cada acceso
  • Línea 8: indica que a partir de esa línea las reglas solo son para el Googlebot
  • Líneas 9 y 10: carpetas que solo Googlebot no puede visitar
  • Línea 10: especifica la carpeta donde se encuentra el sitemap y el nombre del archivo

Incluir comentarios en el robots.txt

Si eres una persona metódica y quieres incluir comentarios en tu robots solo tienes que usar (#) de esta forma:

#La regla servirá para todos los robots
User-agent: *
#Mi archivo de contraseñas ultra-secretas que nadie puede saber
Disallow:/ultrasecreto.html
#Bloqueando mi carpeta llena de fotos ;p
Disallow:/micarpeta/

Cosas que debes tener en cuenta

  • Debe existir solo un robots.txt para cada web y este debe estar en el directorio raíz
  • El robots.txt no es una forma de seguridad
  • Robots.txt no hace que una página sea eliminada del índice de los motores de búsqueda si ya ha sido indexada
  • Los robots de búsqueda solo siguen lo que has especificado en tu robots.txt
  • Los robots son sensibles a las mayúsculas y minúsculas
  • La información de tu robots.txt es pública y cualquiera puede acceder a ella tecleando http://tudominio.com/robots.txt

Importante: si utilizas una sección específica para un robot, este ignorará los comandos de la sección global. Ah, y cuidado con dejarte el robots.txt de desarrollo al pasarlo a producción puedes perjudicar el posicionamiento de TODO tu contenido.

Recuerda: si ayudas a los motores de búsqueda como robots.txt, contribuyes a una mejor indexación del contenido de tu página (SEO), y en consecuencia, a traer más visitas a tu web.

Conclusión

Los motores de búsqueda utilizan robots para recorrer toda la web, indexando todo o casi todo el contenido disponible. El robots.txt funciona principalmente con reglas de negación, ya que por norma, todas las páginas están accesibles a los robots.

El Protocolo de Exclusión de Robots es utilizado en muchas tareas de SEO, puesto que evita la duplicación de contenido, permite o no la indexación de contenido de los webspiders, ocultar contenido y otras tareas.

Fíjate si es útil un robots.txt que hasta en la web de la Casa Real han personalizado su robots.txt para ayudar a los buscadores 😉

User-agent: *
Disallow:Disallow: /_*/
Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/
Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/
Disallow: /EN/FamiliaReal/Urdangarin/
Sitemap: http://www.casareal.es/sitemap.xml

Cuando hayas creado tus reglas podrás subir el archivo a la raíz de tu web desde SEO Toolkit, la herramienta que hemos implementado para que puedas crear o modificar el sitemap.xml o el robots.txt. También podrás subirlo a tu hosting de forma fácil o usar el Administrador de Archivos de tu Panel de Control.


Avatar de Comunicación Dinahosting

Comentarios

4 respuestas

  1. Avatar de Juan

    Interesante el post, tengo problemas para que google de alta a mi sitio web.
    En http://www.cucarachas-valencia.com/robots.txt se puede ver:
    User-agent: *
    Sitemap: http://www.cucarachas-valencia.com/sitemap.xml

    en google no esta indexado y lleva mas de 30dias. site:cucarachas-valencia.com
    En webmasterstools en explorar como google la raiz del dominio lo devuelve como “completo” sin errorres:
    Tipo de robot de Google: Escritorio
    Completo el lunes, 9 de marzo de 2015, 15:06:49 GMT-7

  2. Avatar de prios

    ¡Muchas gracias por tu comentario, Juan!

    Comentarte que el robots.txt que tienes construido (aunque no tiene errores de sintaxis) no se ajusta exactamente a las necesidades de tu web. Te recomendamos que lo cambies por algo así ya que es lo mejor para un sitio construido con WordPress:
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /cgi-bin/
    Sitemap: http://cucarachas-valencia.com/sitemap.xml

  3. Avatar de Dani

    Buenas, tener en cuenta que antes de modificarlo asegurarlos de que esta todo correcto un ejemplo conocido poner por error :

    Disallow: *

    que nos empieza a desindexar todo el contenido

    ,saludos

  4. Avatar de prios

    ¡Muchas gracias por tu comentario, Dani!
    Efectivamente, tenemos que verificar que todo está correcto antes de modificar el robots.txt, un pequeño descuido puede hacer que se desindexe tu web.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Newsletter

Suscríbete y recibe periódicamente consejos muy útiles para tu web y ecommerce 🙂 Además, te regalamos
3 guías
: Digitalización, WordPress y Ciberseguridad.

Conviértete en afiliado

Gana dinero recomendando dinahosting a todo el mundo.