Accueil > Articles > Éviter le duplicate content simple

Éviter le duplicate content simple

Les sites internet font parfois des erreurs toute bête en duplicant des URLs qui pointe vers une page. Cela créer involontairement du duplicate content qu'il est préférable d'éviter. Cet article présente une liste de plusieurs erreurs assez communes avec des explications.

Problème avec la page index

Page d'accueil

Il est vraiment courant de voir des sites internet qui utilisent plusieurs URL différentes pour leur page d'accueil. Je veux dire par là que certains sites sont disponible à partir de deux adresses internet, tel que:

Citation : 2 URL
1) http://www.example.com/
2) http://www.example.com/index.php
Maison

Certains d'entre vous, vont me répondre que ce n'est pas un problème puisque ces URL amène à la même page, mais pendant un temps Google considérait que c'était deux pages différentes (car deux URLs différentes). Pour éviter une dilution assez bête de son PageRank à l'intérieur même de son site.

Pour bien faire, il faut s'assurer de toujours mettre la même adresse internet pour chacune des pages de son site. Je vous recommande d'utiliser l'adresse "1" parce qu'elle est plus courte et plus souvent citée.

Malheureusement, même en regardant chacune de vos pages internet, vous n'êtes pas à l'abri d'une erreur et il est possible que d'autres sites internet utilise la mauvaise URL. Pour récupérer le PageRank de l'autre URL et pour faire les choses proprement il convient d'utiliser un script qui permet de rediriger l'URL 2 vers l'URL 1. Pour ma part je me sert de ce script PHP que je place sur ma page "index.php":

Code:
if(eregi('index.php', $_SERVER['REQUEST_URI'])) {
  header("Status: 301 Moved Permanently", false, 301);
  header("Location: /");
}

Vous pouvez tester ce script et constater par vous même qu'en utilisant l'URL 2, vous serez automatiquement redirigé vers l'URL 1 (regardez bien dans la barre d'adresse de votre navigateur internet).

Répertoire

Le conseil précédent est aussi valable pour les sites qui utilisent des dossiers. Ceux-ci peuvent avoir deux adresses différentes à cause de la page d'index. Voici la même analogie que l'exemple ci-dessus:

Citation : 2 URL
1) http://www.example.com/dossier1/
2) http://www.example.com/dossier1/index.php

Pour éviter ce problème il suffit simplement d'adapter le code ci-dessus de cette façon:

Code:
if(eregi('index.php', $_SERVER['REQUEST_URI'])) {
  header("Status: 301 Moved Permanently", false, 301);
  header("Location: /dossier1/");
}

Ce code est à placé sur la page "index.php" du dossier nommé "dossier1". Vous pouvez ainsi éviter les même problèmes que la page d'accueil.

Avec ou sans www

La plupart des sites internet ont une adresse internet qui commence par le préfixe "www". Ce préfixe est un sous-domaine de l'URL principal et il n'est pas obligatoire de l'utiliser. Par conséquent, une majorité de site web peuvent être consulté par deux URL différentes:

Citation : 2 URL
1) http://www.example.com/
2) http://example.com/

Faire une modification soi-même

Les deux adresses internet présenté ci-dessus peuvent encore une fois causer un problème de duplicate content sur les moteurs de recherche. À la moindre "mauvaise manipulation" du webmaster, le problème peut survenir. Il convient alors d'être toujours rigoureux et d'utiliser encore une fois un code spécial qui redirige les internautes qui utilisent la mauvaises adresses internet.

Cette fois-ci l'astuce ne nécessite pas de PHP mais l'utilisation d'un fichier .htaccess. Placé celui-ci à la racine de votre site avec l'un des codes suivants pour qu'il y ai une redirection automatique si l'URL n'est pas correct:

Rediriger http://example.com vers http://www.example.com

Code:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.example\.com [NC]
RewriteRule (.*) http://www.example.com/$1 [QSA,R=301,L]

Rediriger http://www.example.com vers http://example.com

Code:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^example\.com [NC]
RewriteRule (.*) http://example.com/$1 [QSA,R=301,L]

Prévenir directement Google

Pour les webmasters qui ne font pas cette modification, il y a la possibilité de prévenir directement Google pour lui indiquer s'il doit indexer les pages avec ou sans "www". Pour faire ça il faut utiliser tout simplement l'outil: Google Webmaster Tools.

Une fois sur cet outil il faut faire cette démarche:

  1. Sélectionner le site de son choix
  2. Ouvrir le menu "Paramètres"
  3. Aller sur la page "Définir un domaine favori" et choisir sa préférence.

Title et Meta Description différentes

fiche similaire mais de couleurs différentes

Pour éviter des mauvaises interprétation de vos pages par Google il convient d'avoir des balises title et des balises de meta description totalement uniques sur chaque pages.
Le simple fait d'avoir deux pages qui ont exactement le même titre et la même balise meta de description peut être perçus comme du duplicate content de la part de Google.

Les sites dynamique doivent alors être attentif lors du codage des pages. Lorsqu'il y a plusieurs pages sur un forum ou dans les commentaires d'une news il faut faire en sorte que chaque page aient une balise title et meta description différentes.

Identifiants dans les adresses

Certains sites ou forums se servent des URL pour faire passer un numéro d'identifiant. Ce numéro permet ainsi de suivre les visiteurs à la trace sur tout le site. Malheureusement les robots d'indexation sont des visiteurs comme les autres et ils vont eux aussi avoir droit à des URLs peu optimisé pour le référencement.

L'identifiant de connexion dans les URL ça ressemble à ça:

  • http://www.example.com/page.php&id=43085920
  • http://www.example.com/page.php&id=90583923
  • http://www.example.com/page.php&id=12495039

Chacune de ces adresses constitue une URL différente qu'il faut (théoriquement) indexé selon Google. Il convient de ne pas utiliser des URLs comme celles-ci et de privilégier d'autres méthodes pour suivre un visiteur (tel l'utilisation de cookies).

Se tromper lors d'écriture d'URLs dynamiques

"Page 1": 2 URLs

Une très grande parties de sites construit dynamiquement peuvent avoir un problème de page dupliqué pour les "pages 1". Prenons l'exemple d'un forum, il y a de nombreuses pages sous cette forme:

Citation : Plusieurs URL
1) http://www.example.com/page.php?forum=35
2) http://www.example.com/page.php?forum=35&page=1
3) http://www.example.com/page.php?forum=35&page=2
4) http://www.example.com/page.php?forum=35&page=3

Dans l'exemple donné ci-dessus, il y l'adresse "1" qui pointe vers la même page que l'adresse "2". Pour éviter ce problème il faut principalement vérifier que les pages 2, 3, 4,... désigne la page 1 en utilisant l'URL "1".
Il faut ainsi éviter à tout prix d'utiliser l'adresse 1 par erreur.

Inverser plusieurs variables dans l'URL

Dans les sites dynamiques il peut être nécessaire parfois d'avoir plusieurs critères à envoyer dans les adresses internet. Dans ce cas de figure il faut être minutieux et veiller à ce que les adresses soit toujours du même type et écrite de la même manière.

Un gros défaut consisterais à inverser les variables dans l'URL sans faire exprès. Voici un exemple (à ne pas reproduire) de deux adresses différentes qui mène vers la même page:

Citation : Plusieurs adresses
http://www.example.com/page.php?forum=24&page=3
http://www.example.com/page.php?page=3&forum=24

Dans ce cas il n'y a que deux variables dans l'URL, le problème peut être encore plus flagrant s'il y a plus de deux variables à envoyer dans l'URL.

Catégories similaires

C'est un peu plus rare, mais certains site d'e-commerce peuvent avoir un problème dans leur adresses à cause de catégories similaires qui propose deux fois le même contenu.

Imaginons un site qui vend des voitures. Ce site possède plusieurs menu pour que les visiteurs cherche ce qui leurs conviennent de plusieurs manière différentes. Il y aura ainsi des URL du type:

Citation : Plusieurs URL
http://www.example.com/page.php?type=luxe&voiture=206
http://www.example.com/page.php?marque=peugeot&voiture=206

Malheureusement, il est possible que chacune de ces adresses amène vers un contenu totalement identique. Il faut alors penser à rendre unique ces deux pages (en créant un contenu unique pour chacune des adresses) ou alors il faut tout simplement revoir la structure du site pour que ce type de problème ne survienne pas.

Problèmes due a l'URL rewritting

Pour améliorer le référencement de site dynamique, il convient d'utiliser une méthode d'URL rewritting. Ça peut améliorer un site à être indexé par les moteurs de recherche (parce que les URL sont plus "propre"), mais cela peut nuire au référencement dans certains cas que je vais vous présenter ici.

Ne pas tout mettre en URL rewritting

Imaginons, vous venez de mettre en place l'URL rewritting sur votre site, mais sans faire exprès vous n'avez pas modifié tous les liens. A cause de ce problème vous pouvez vous retrouvez avec deux fois plus de liens qui indique le même contenu, tel que:
Citation : Plusieurs URL
http://www.example.com/page.php?forum=79
http://www.example.com/forum-79.html

Ne pas toujours utiliser les mêmes mots-clés dans l'URL

Ceux qui savent bien manier l'URL rewritting savent placé des mots-clés dans les URLs. Néanmoins, il faut faire attention à toujours placer les mêmes mots. Imaginons un annuaire internet qui créer une page pour chaque site de se base de donnée. Pour optimiser ces sites il utilise une URL avec le titre du site dans l'URL, de cette façon:

Citation : Exemple
Titre: Vente de fleurs à Paris
URL: http://www.example.com/site-12-vente-de-fleur-a-paris.html

Si les membres ont le droit de modifier leurs titre une fois inscrit, celui-ci pourrait modifier le titre et cela affecterais l'URL. L'adresse précédente pourrais ainsi être modifier de cette manière:

Citation : Exemple
Titre: Fleurs à Paris
URL: http://www.example.com/site-12-fleur-a-paris.html

Ce problème avec les URL peut aussi se produire si vous décider de modifier un tout petit peu vos URL. Si vous décidez que les mots de moins de deux lettres ne doivent pas apparaitre dans les URL par exemple, il faudra veiller à faire attention à vos adresses qui ont déjà des mots de 2 lettres dans leurs URLs.

Problème de nom de domaine

Certains gros sites internet achètes plusieurs nom de domaine, dans le cas où un visiteurs se trompe en tapant l'adresse ou alors pour éviter que d'autres sites achète vos nom de domaine de votre marque. Un même site peut alors être trouvé sur plusieurs URL différentes (.com et .fr par exemple).

Le problème, c'est qu'il y a véritablement un site identique mais deux URL différents. Il faut que seulement un seul des sites soit indexé. Pour les autres, placé des redirections qui redirige vers le seuls site internet valide.

Pour finir

Cet article présente de nombreuses failles, mais je n'ai pas toujours donné de solution pour les problèmes évoqué. Il ne consiste qu'à vous de choisir les solutions approprié pour chacun des cas ou alors de veiller à ne pas faire ces erreurs.

Ne perdons pas de vue que certaines faillent présentées ici sont maintenant facilement détectable par les moteurs de recherche, mais il faut toujours veiller à les aider plus ou moins (d'autant plus qu'on est pas à l'abri d'une erreur de leurs parts).


Article rédigé par Tony_ le 11/11/2008 à 21h50 dans la catégorie "Information" du site InfoWebMaster.fr.

Ajouter un commentaire