Merci de ton message.
Il est vrai que je n'ai pas parlé de la commande "
Crawl-delay".
Présentation de la commande "Crawl-delay"
La commande
Crawl-delay est un paramètre qui indique le nombre de seconde minimum à attendre entre des requêtes successive sur un même serveur. Ça permet d'empêcher qu'un serveur se retrouve inonder de requête de bot qui analyses toutes les pages d'un coup et qui fait ainsi ramer votre serveur (
et votre site par la même occasion).
Néanmoins, même si les principaux robots respectent cette commande, il y en a encore quelque uns qui ne prennent pas en compte cette commande.
La seconde chose à dire c'est que les serveurs en général arrive à supporter la visite d'un robot, donc si cette ligne n'est pas écrite il n'y a pas trop de problème en principe.
Donc pour finir je dirais que cette commande peut être utile si vous avec un petit serveur pas puisant. Il est vrai qu'indiquer 5 secondes reste un bon compromis.
Personnellement, je n'indique pas cette commande car je ne crains pas trop les performances de mon serveur. Si il arrive à supporter un bon petit nombre de visiteurs, il doit savoir supporter la visite de quelques robots.
Noms de robots
Tant que j'y suis, j'ai envie de donner le nom de quelques robots connus:
- googlebot: Robot de Google
- googlebot-image: Robot utilisé par Google Image
- msnbot: MSN Search
- yahoo-slurp: Yahoo
- twiceler: Robot de Cuil (le tout nouveau moteur de recherche qui prétend être un sérieux concurrent de Google)
- robozilla: Robot de l'annuaire DMOZ
- ia_archiver: Robot de Alexa et de la Wayback Machine
Cette liste est bien entendu non exhaustive, mais ça peut être pratique pour ceux qui veulent faire quelques restrictions particulière.