¿Qué es y para qué sirve el archivo robots.txt?
Para qué sirve el archivo robots.txt es una de las preguntas comunes de todo aquel que quiere iniciarse en el SEO. No podría ser de otra forma, este archivo es uno de los elementos más importantes de tu sitio, y puede impactar la forma en que te descubre, te indexa y te posiciona Google.
Por eso es crucial que entiendas qué papel tiene el archivo robots.txt, para que puedas configurarlo de la manera correcta y evitar problemas de visibilidad, rastreo e indexación.
Si queremos entender qué es el archivo robots.txt primero tendremos que ponernos en los zapatos de Google.
Cada cierto tiempo, Google envía bots a rastrear todo internet en busca de nuevo contenido, nuevas páginas y URLs. Esos bots, o robots, son los que descubren lo que sea que haya de nuevo en internet y lo indexan en el buscador.
El archivo robots.txt está estrechamente relacionado con ellos, por razones que ya veremos.
Recibe un 10% de saldo extra para Link Building
Usa el cupón BIENVENIDA10 en tu primera recarga y consigue potentes enlaces en periódicos y blogs de tu temática. Tenemos +20.000 medios digitales.
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo que contiene instrucciones para los bots de Google y los de otros motores de búsqueda.
Este señala cuáles partes de tu web quieres que rastreen y cuáles no. Incluye comandos particulares que indican a los robots a donde ir y qué rastrear en tu web, por lo que tienen un gran impacto en la visibilidad e indexabilidad de cualquier sitio.
¿Para qué sirve el archivo robots.txt?
Este archivo sirve para dar indicaciones a los bots de los motores de búsqueda sobre cómo rastrear tu web, qué secciones evitar, cuáles debe indexar y cuáles no.
Siendo más específicos, el archivo robots.txt sirve para:
Administrar la forma en que Google rastrea tu sitio y lo indexa
Con sus comandos e indicaciones, el archivo robots.txt te ayudará a administrar el rastreo de Google, favoreciendo que recorra ciertas URLs, y procurando que evite aquellas que tienen contenido de poco valor para tus usuarios.
Indispensable para que el link juice y el pagerank de tu web se distribuyan de la forma correcta, sin desperdiciarse en URLs que no te interesa posicionar.
Evitar el rastreo y bloquear el acceso de partes de una web
Ciertas secciones de tu web simplemente no añaden ningún valor, y no tiene sentido que aparezcan o posicionen en Google, nadie las buscara. Páginas como la Política de privacidad o la de Cookies.
Si dejas que los bots de Google las rastreen estarías desperdiciando innecesariamente su crawl budget, lo que podría acabar perjudicando al contenido que si quieres que se rastree e indexe rápido.
Señalar el sitemap de tu sitio
El sitemap de tu web es un engranaje fundamental en su SEO y posicionamiento, un sitemap bien hecho facilita el rastreo e indexación de tu contenido, lo que significa que estarás antes en los resultados de búsqueda y podrás comenzar a posicionar.
Con el archivo robots.txt puedes indicarle a Google dónde se encuentra este recurso invaluable y ayudar en el rastreo de tu web.
Limitar por completo el acceso a tu web
Esta es una de las funciones más drásticas y potentes del archivo robots.txt, pero si así lo quisieras, por las razones que fuera, podrías evitar que Google rastreara tu web del todo.
Una opción apropiada solo para sitios en construcción, o páginas que todavía no han terminado de ser lanzadas.
¿Qué debe contener el archivo robots.txt?
El archivo robots.txt debe contener comandos válidos con acciones precisas que quieras indicarle a los bots de los motores de búsqueda.
En principio, no debe tener nada de manera obligatoria. De hecho, tu web puede existir sin problemas y no tener ni siquiera un robots.txt. Sin embargo, en casos donde se quiere gestionar con mayor precisión el rastreo, conviene tenerlo.
Lo que todo archivo robots.txt tendrá son comandos, pues es para lo único que funciona, para aplicar comandos y transmitir indicaciones a los bots de los buscadores.
Comandos
Entre los comandos principales podemos conseguir:
- Disallow: es un comando que se usa para restringir el acceso a ciertas secciones de tu web.
- Allow: con este comando indicas que permites el acceso a determinadas secciones de tu web. Ideal para aclararle a los bots qué secciones sí deseas que rastreen.
- Sitemap: el comando con el que apuntas la dirección de tu sitemap para que los bots puedan encontrarlo.
- User-agent: este es el comando que puedes usar para señalar específicamente a qué bot estás dando indicaciones.
¿Cómo se crea el archivo robots.txt?
El archivo robots.txt no es más que un archivo de texto plano, por lo que podrás crearlo desde cualquier aplicación que pueda editar contenido en este formato.
Una vez que lo tengas listo, con los comandos que te interesa, deberás subirlo al directorio raíz de tu página web. Si quieres verificar que todo funciona al 100%, solo usa la herramienta de prueba de Google Search Console, y mira cómo interpretarán los bots de Google tu archivo robots.txt.
¿De verdad necesitas este archivo en tu web?
No es estrictamente necesario, pero si quieres sacarle provecho a su potencial, y definir con precisión cada una de las secciones indexables y no indexables de tu web, te convendrá contar con sus comandos.
Más allá de lo intimidante que pueda parecer, crear y editar tu archivo robots.txt no es una tarea tan compleja; pero eso sí, es delicada, por lo que querrás prestarle mucha atención a cada paso.
Ahora que sabes para qué sirve el archivo robots.txt puedes ponerte manos a la obra y comenzar a potenciar tu estrategia de SEO como nunca, con toda la precisión de sus comandos.
Author: Otto F. González
¿Necesitas ayuda con tu estrategia de SEO y branded content?
En Linkatomic te ofrecemos 20.000 periódicos y blogs para mejorar tu visibilidad en internet.