Accueil > Articles > Robots.txt : Explication

Robots.txt : Explication

Le fichier robots.txt sert à indiquer aux moteurs de recherche quels sont les pages de votre site à ne pas indexer dans les moteurs de recherche. Je vais vous présenter en détail comment créer un tel fichier et pourquoi il est utile.

Roulement et engrenage

Présentation

Le fichier robots.txt est un petit fichier texte qui comporte des informations à destination des robots qui parcours votre site internet. En règle généra c'est utile pour les robots des moteurs de recherche, pour leur indiquer les pages à indexer ou à au contraire leur interdire l'accès à certaines pages (ou certaines parties) du site.

L'utilisation d'un tel fichier est devenu banal et les moteurs de recherche commence donc par vérifier si un tel fichier existe sur votre site avant même de débuter l'analyse de celui-ci.

Intérêt

loupe qui zoom sur un livre

La plupart des sites internet assez gros possède une partie privée qu'ils ne souhaitent pas divulgué au moteur de recherche. Ce fichier d'exclusion des robots, indique alors quels robots (un robot particulier ou tous les robots) doivent exclure quels pages. Cela peut aussi être utile pour ne pas indexer certaines pages d'un site en construit, ou qui pourrait nuire au référencement.

Cette méthode est plus appropriée que d'utiliser la balise meta "robots". Cette balise en question peut ressembler à ceci:

Code:
<meta name="robots" content="none" />

Le problème c'est que cette balise vous fait perdre de la place sur vos chacune de vos page par rapport au véritable contenu. De plus, si vous devez protéger toutes les pages d'un dossier (exemple, votre dossier "admin") c'est un peu long d'aller modifier toutes les pages une à une. Il faut aussi noter que les balises meta se font un peu vieille et que le fichier robots est plus dans l'air du temps.
Par conséquent, utiliser un fichier qui rassemble toutes les règles d'indexation de votre site, c'est plus pratique et plus lisible.

Néanmoins, vous devez être conscient que ce fichier est uniquement une indication pour les robots honnête (ceux associé en général aux gros sites). Certains robots malveillant peuvent ne pas du tout lire ce fichier. C'est le cas notamment pour les robots qui scanne votre site à la recherche d'adresse e-mail pour vous spammer.
Il y a aussi des vieux robots pas trop performant qui ne sont pas assez élaboré pour analyser ce fichier d'exclusion des moteurs.

Comment le mettre en place

Il ne doit y avoir qu'un seul fichier de ce type sur un même site internet et il doit être placé à la racine du site sous le nom de "robots.txt" (exactement écrit de la même manière).
Par conséquent un site internet du nom de "http://www.example.com" aura son unique fichier robots.txt à l'adresse:

Citation : Adresse de la page
http://www.example.com/robots.txt

Une fois que ce fichier est mis en place, il faut attendre qu'il soit pris en compte par les robots, car ceux-ci ne regarde pas forcément à chaque fois qu'il index une nouvelle page.

Utilisation de ce fichier

Pour ne pas trop vous en mettre dans la tête d'un coup, je vous ai rédigé une nouvelle page qui vous explique comment utiliser le fichier "robots.txt". Alors que cet article vous présentait en détail ce ficher et vous expliquait pourquoi il était utile, cette seconde page ressemble beaucoup plus à un tutorial qui va vous expliquer comment bien utiliser ce fichier.

Utilisation du fichier robots.txt

J'espère que vous y trouverez votre bonheur et que cela vous permettra d'améliorer votre site.


Article rédigé par Tony_ le 08/09/2008 à 13h44 dans la catégorie "Présentation" du site InfoWebMaster.fr.

Ajouter un commentaire