Commentaires sur Utilisation du robots.txt  


Commentaires sur : Utilisation du robots.txt

Résumé de l'article

Présente les commandes à utiliser dans le fichier robots.txt. Cela permet d'indiquer aux robots les pages ou dossiers à ne pas indexer dans les moteurs de recherche ou d'empécher que certaines pages soit visité par un robot quelconque.

Veuillez vous inscrire ou vous connecter pour laisser un message. L'inscription est rapide et non contraignante.
Auteur Message
icone offline Pablo
avatar de Pablo
Membre
# Le 09/09/2008 à 04h49
Merci pour l'information, une bonne lecture avant de se coucher.

J'ai une balise " Crawl-delay: 5 " juste apres "User-agent:" dans mon robot.txt . Je ne sais pas si il y a une différence dans la performance du fichier.
icone offline Tony_
avatar de Tony_
Administrateur
# Le 09/09/2008 à 11h43
Merci de ton message.
Il est vrai que je n'ai pas parlé de la commande "Crawl-delay".

Présentation de la commande "Crawl-delay"

La commande Crawl-delay est un paramètre qui indique le nombre de seconde minimum à attendre entre des requêtes successive sur un même serveur. Ça permet d'empêcher qu'un serveur se retrouve inonder de requête de bot qui analyses toutes les pages d'un coup et qui fait ainsi ramer votre serveur (et votre site par la même occasion).
Néanmoins, même si les principaux robots respectent cette commande, il y en a encore quelque uns qui ne prennent pas en compte cette commande.
La seconde chose à dire c'est que les serveurs en général arrive à supporter la visite d'un robot, donc si cette ligne n'est pas écrite il n'y a pas trop de problème en principe.

Donc pour finir je dirais que cette commande peut être utile si vous avec un petit serveur pas puisant. Il est vrai qu'indiquer 5 secondes reste un bon compromis.
Personnellement, je n'indique pas cette commande car je ne crains pas trop les performances de mon serveur. Si il arrive à supporter un bon petit nombre de visiteurs, il doit savoir supporter la visite de quelques robots. smiley

Noms de robots

Tant que j'y suis, j'ai envie de donner le nom de quelques robots connus:
  • googlebot: Robot de Google
  • googlebot-image: Robot utilisé par Google Image
  • msnbot: MSN Search
  • yahoo-slurp: Yahoo
  • twiceler: Robot de Cuil (le tout nouveau moteur de recherche qui prétend être un sérieux concurrent de Google)
  • robozilla: Robot de l'annuaire DMOZ
  • ia_archiver: Robot de Alexa et de la Wayback Machine
Cette liste est bien entendu non exhaustive, mais ça peut être pratique pour ceux qui veulent faire quelques restrictions particulière. smiley

S'inscrire

Se connecter