Logo InfoWebmaster

Commentaires sur : Utilisation du robots.txt

Accueil > Liste des articles > News : Utilisation du robots.txt > Commentaires sur : Utilisation du robots.txt
étoile

Résumé de la news

Présente les commandes à utiliser dans le fichier robots.txt. Cela permet d'indiquer aux robots les pages ou dossiers à ne pas indexer dans les moteurs de recherche ou d'empécher que certaines pages soit visité par un robot quelconque.

Pour pouvoir laisser un message sur cette news vous devez être inscrit (ou simplement connecté) en tant que membre sur ce site.
S'inscrire au site - Se connecter au site

Cette mesure consiste essentiellement à éviter le spam, ne soyez pas horifié l'inscription est rapide et non contraignante.
Merci à tous pour votre compréhension.

Commentaires des membres

Auteur Message
Page : 1
icone offline Pablo # Posté le 09/09/2008 à 04h49
avatar de Pablo
Rang: membre
Merci pour l'information, une bonne lecture avant de se coucher.

J'ai une balise " Crawl-delay: 5 " juste apres "User-agent:" dans mon robot.txt . Je ne sais pas si il y a une différence dans la performance du fichier.
icone online funnycat # Posté le 09/09/2008 à 11h43
avatar de funnycat
Rang: administrateur
Merci de ton message.
Il est vrai que je n'ai pas parlé de la commande "Crawl-delay".

Présentation de la commande "Crawl-delay"

La commande Crawl-delay est un paramètre qui indique le nombre de seconde minimum à attendre entre des requêtes successive sur un même serveur. Ça permet d'empêcher qu'un serveur se retrouve inonder de requête de bot qui analyses toutes les pages d'un coup et qui fait ainsi ramer votre serveur (et votre site par la même occasion).
Néanmoins, même si les principaux robots respectent cette commande, il y en a encore quelque uns qui ne prennent pas en compte cette commande.
La seconde chose à dire c'est que les serveurs en général arrive à supporter la visite d'un robot, donc si cette ligne n'est pas écrite il n'y a pas trop de problème en principe.

Donc pour finir je dirais que cette commande peut être utile si vous avec un petit serveur pas puisant. Il est vrai qu'indiquer 5 secondes reste un bon compromis.
Personnellement, je n'indique pas cette commande car je ne crains pas trop les performances de mon serveur. Si il arrive à supporter un bon petit nombre de visiteurs, il doit savoir supporter la visite de quelques robots. smiley

Noms de robots

Tant que j'y suis, j'ai envie de donner le nom de quelques robots connus:
  • googlebot: Robot de Google
  • googlebot-image: Robot utilisé par Google Image
  • msnbot: MSN Search
  • yahoo-slurp: Yahoo
  • twiceler: Robot de Cuil (le tout nouveau moteur de recherche qui prétend être un sérieux concurrent de Google)
  • robozilla: Robot de l'annuaire DMOZ
  • ia_archiver: Robot de Alexa et de la Wayback Machine
Cette liste est bien entendu non exhaustive, mais ça peut être pratique pour ceux qui veulent faire quelques restrictions particulière. smiley
Boutique d'informatique: Boutique de livre d'informatique pour les webmasters.
Blog d'InfoWebMaster: Blog officiel d'InfoWebMaster.
Page : 1

icone commentaire interdit Se connecter pour ajouter un commentaire

Accueil > Liste des articles > News : Utilisation du robots.txt > Commentaires sur : Utilisation du robots.txt