Bots? Robots?

El robots.txt lleva utilizándose desde que en 1994 Martijn Koster lo propuso en la empresa en la que trabajaba en ese momento (Nexor), con el fin de bloquear todos los bots maliciosos que «atacaban» sus sitios web.
Un bot (también llamado «araña» al traducirlo a español) es un software que rastrea sitios web en busca de nuevo contenido, cambios o cualquier cosa para el que haya sido diseñado, existen bots de muchos tipos, aunque de los que más oímos hablar es de Google.

¿Qué es el robots.txt?
Aunque muchos bots actualmente hacen caso omito del archivo del robots.txt, la mayoría de bots y arañas «legales» siguen haciéndole caso a las indicaciones del robots.txt, entre ellos está el bot o araña de Google.
La teoría dice que cuando un bot llega a un sitio web, lo primero que revisa es si existe un archivo robots.txty si este archivo existe, lo analiza para ver que partes del sitio web tiene bloqueadas y no puede acceder a ellas o scrapear su contenido, es decir que partes puede indexar y mostrar al publico general.

Podemos usar el archivo robots.txt para que los bots o arañas no puedan acceder algunas partes de nuestro sitio web, pero no solo eso, sino que también podemos elegir que bots y arañas pueden entrar y cuáles serán bloqueadas automáticamente y en que partes de la web serán bloqueados, además también podemos establecer límites de «velocidad» a la hora de navegar estos bots y arañas por nuestro sitio web con el fin de que «no se pasen».

Si quieres saber para que sirve, espera el proximo news de CHAN!

Fernanda Vallejos