Bots? Robots? Parte II
En el news anterior les contamos que es un robots.txt, pero para que sirve este archivo? es tan imprescindible como se dice?
Pues sí es IMPRESCINDIBLE, es fundamental que se encuentre en nuestra web, ya que su principal función es indicar dónde se encuentran los sitemaps de nuestra web, así que además de subirlo a través de Search Console podemos facilitarle la vida a los bots/arañas de los motores de búsqueda e incluírselo. Además, gracias a este archivo podremos bloquearle a los bots el acceso a zonas de nuestra web que por algún motivo no queremos indexarlas.
En conclusión, sirve para tener un control «casi absoluto» de la información que queremos que sea indexada y la que no. Aunque, hay bots que ni se miran el archivo Robots.txt y lo único que hacen es seguir los enlaces que encuentren hacia nuestro sitio web.
Algunos de los parámetros más utilizados:
– User-agent: Aquí indicaremos qué bots queremos que rastren nuestra web y cuáles no.
– Disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o indicar la ruta que queremos bloquear.
– Allow: Sirve para permitir el acceso, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones de lo dicho anteriormente.
– Sitemap: Indicaremos en que URL se encuentra nuestro sitemap, incluso podemos poner varios en caso tengamos uno de imágenes.
– Crawl-delay: Podremos especificar un número de segundos de espera entre cada página revisada por el bot.