Le fichier robots.txt est a placer sur votre site internet pour indiquer aux moteurs de recherche les pages à ne pas indexer. Dans un précédent article j'ai réalisé une présentation détaillé du fichier robots.txt. Cet article va être un tutorial pour apprendre à créer un tel fichier sur votre site web.

Dans ce fichier il n'y véritablement que deux commandes qui soit bien reconnus par tous les robots.
La première commande c'est "User-Agent". Cette commande permet de stipuler les robots à qui ont s'adresse. Chaque robot à un nom différent, donc il est possible de s'adresser à un ou plusieurs robots en particulier.
Il y a aussi la possibilité de s'adresser à tous les robots d'un coup en écrivant: *
La seconde commande qui est bien comprise c'est "Disallow". Cette commande permet d'indiquer les pages ou les dossiers à ne pas indexer. Si rien n'est écris dans ce fichier alors par défaut ça signifie que les pages sont "indéxable".
Je vais maintenant essayer d'expliquer comment utiliser les commandes pour réaliser une action particulière.
Si vous ne souhaitez pas que votre site soit indexé sur les moteurs de recherche, vous pouvez interdire l'accès de celui-ci à tous les robots en utilisant la commande ci-dessous:
Autoriser l'indexation de toutes les pages d'un site à tous les robots revient au même que ne pas mettre en place de fichier robots.txt. Mais si vous souhaitez tout de même l'écrire, c'est comme ça qu'il faut faire:
Si il y a une page particulièrement sur votre site qui contient des informations plus ou moins secrète et que vous ne souhaitez pas que celle-ci soit présente sur les moteurs de recherche, vous pouvez refuser sa visite par les robots à l'aide de la commande ci-dessous:
Si il y a plusieurs pages pour lesquels vous souhaitez restreindre l'indexation, il convient d'utiliser une commande comme celle-ci:
Tout comme il est possible de restreindre l'accès à une page, il est aussi possible d'indiquer que toutes les pages incluse dans un dossier ne soit pas indexé, en seulement deux lignes de code.
En utilisant le code ci-dessous, vous empêcherez que les pages du dossier "administrateur" ne soit visité par les robots:
De la même manière que pour les pages, vous pouvez refuser l'accès à plusieurs dossier en quelques lignes:
Dans tous les exemples ci-dessus, j'ai utiliser l'astérisque à chaque fois pour indiquer que c'est "tous les robots" qui sont concerné. Néanmoins, il ne faut pas perdre de vue que vous pouvez indiquer le nom d'un robot particulier pour que se ne soit que celui-ci qui respecte les règles que vous expliquez.
Par exemple, le nom du robot utilisé par Google c'est: "Googlebot".
Il existe des listes des noms de nombreux robots:
En connaissant les noms de principaux robots vous pouvez rédiger un code encore plus personnel en fonction de vos besoin.
En utilisant le code ci-dessous, vous pourrez empêcher l'indexation de votre site par certains robots particulier:
Avec toutes ces informations vous êtes maintenant en mesure de mettre en place un tel fichier. N'oubliez pas que c'est beaucoup plus pratique et plus recommandé que les balise meta.
En parlant de balise meta robots, éviter d'en placer si vous placez un fichier robots.txt, cela permettra d'être clair avec les robots.
Et n'oubliez pas que vous pouvez obtenir plus d'informations sur le fichiers robots.txt sur l'article précédent.
Merci d'avoir lu cet article. Il vous reste maintenant plusieurs choix: parler de cet article à vos amis, imprimer cette page, commenter cet article, voir les articles de la même thématique ou alors quitter votre ordinateur. 