Accueil > Articles > Utilisation du robots.txt

Utilisation du robots.txt

Le fichier robots.txt est a placer sur votre site internet pour indiquer aux moteurs de recherche les pages à ne pas indexer. Dans un précédent article j'ai réalisé une présentation détaillé du fichier robots.txt. Cet article va être un tutorial pour apprendre à créer un tel fichier sur votre site web.

Commandes

Dans ce fichier il n'y véritablement que deux commandes qui soit bien reconnus par tous les robots.

La première commande c'est "User-Agent". Cette commande permet de stipuler les robots à qui ont s'adresse. Chaque robot à un nom différent, donc il est possible de s'adresser à un ou plusieurs robots en particulier.
Il y a aussi la possibilité de s'adresser à tous les robots d'un coup en écrivant: *

La seconde commande qui est bien comprise c'est "Disallow". Cette commande permet d'indiquer les pages ou les dossiers à ne pas indexer. Si rien n'est écris dans ce fichier alors par défaut ça signifie que les pages sont "indéxable".

Exemple

Je vais maintenant essayer d'expliquer comment utiliser les commandes pour réaliser une action particulière.

Exclure toutes les pages pour tous les robots

Si vous ne souhaitez pas que votre site soit indexé sur les moteurs de recherche, vous pouvez interdire l'accès de celui-ci à tous les robots en utilisant la commande ci-dessous:

Code:

User-Agent: *
Disallow: /

Aucune exclusion de pages

Autoriser l'indexation de toutes les pages d'un site à tous les robots revient au même que ne pas mettre en place de fichier robots.txt. Mais si vous souhaitez tout de même l'écrire, c'est comme ça qu'il faut faire:

Code:

User-Agent: *
Disallow:

Interdire l'accès à des pages

Si il y a une page particulièrement sur votre site qui contient des informations plus ou moins secrète et que vous ne souhaitez pas que celle-ci soit présente sur les moteurs de recherche, vous pouvez refuser sa visite par les robots à l'aide de la commande ci-dessous:

Code:

User-agent: *
Disallow: /page.html

Si il y a plusieurs pages pour lesquels vous souhaitez restreindre l'indexation, il convient d'utiliser une commande comme celle-ci:

Code:

User-agent: *
Disallow: /page.html
Disallow: dossier/page.html
Disallow: dossier/page2.html
Disallow: dossier/sous-dossier/page.html

Interdit l'accès aux dossiers

Tout comme il est possible de restreindre l'accès à une page, il est aussi possible d'indiquer que toutes les pages incluse dans un dossier ne soit pas indexé, en seulement deux lignes de code.
En utilisant le code ci-dessous, vous empêcherez que les pages du dossier "administrateur" ne soit visité par les robots:

Code:

User-agent: *
Disallow: /administrateur/

De la même manière que pour les pages, vous pouvez refuser l'accès à plusieurs dossier en quelques lignes:

Code:

User-agent: *
Disallow: /dossier/
Disallow: /dossier2/
Disallow: /dossier3/sous-dossier/

Noms des robots

Dans tous les exemples ci-dessus, j'ai utiliser l'astérisque à chaque fois pour indiquer que c'est "tous les robots" qui sont concerné. Néanmoins, il ne faut pas perdre de vue que vous pouvez indiquer le nom d'un robot particulier pour que se ne soit que celui-ci qui respecte les règles que vous expliquez.
Par exemple, le nom du robot utilisé par Google c'est: "Googlebot".

Il existe des listes des noms de nombreux robots:

Exclure un robots particulier

En connaissant les noms de principaux robots vous pouvez rédiger un code encore plus personnel en fonction de vos besoin.

En utilisant le code ci-dessous, vous pourrez empêcher l'indexation de votre site par certains robots particulier:

Code:

User-Agent: Le-Nom-Du-Robot
Disallow: /
User-Agent: *
Disallow:

Conclusion

Avec toutes ces informations vous êtes maintenant en mesure de mettre en place un tel fichier. N'oubliez pas que c'est beaucoup plus pratique et plus recommandé que les balise meta.
En parlant de balise meta robots, éviter d'en placer si vous placez un fichier robots.txt, cela permettra d'être clair avec les robots.
Et n'oubliez pas que vous pouvez obtenir plus d'informations sur le fichiers robots.txt sur l'article précédent.

Article rédigé par Tony_ le 08/09/2008 à 13h44 dans la catégorie "Informatique" du site InfoWebMaster.fr.

Imprimer cette page