Présentation du duplicate content   

Accueil > Articles > Présentation du duplicate content

Présentation du duplicate content

Le duplicate content peut être un véritable problème en référencement pour bien indexer des pages. Le moteur de recherche Google essaie de lutter contrer la copie de texte et il convient de bien comprendre pourquoi le contenu dupliqué est susceptible d'être pénalisant pour un site. C'est la raison pour laquelle cet article explique toutes les bases à connaitre sur ce sujet.

Présentation

fiche similaire mais de couleurs différentes

Le terme "duplicate content" viens de l'anglais et signifie "contenu dupliqué". On utilise généralement ce terme lorsqu'un contenu identique ou presque similaire est détecté sur deux pages (ou deux URL) distinctes. Effectivement, lorsqu'un même contenu est disponible partiellement ou en intégralité à partir de plusieurs adresses internet différentes, cela signifie que le contenu a été dupliqué (volontairement ou non).

Que les contenus identiques soient sur le même site internet ou sur deux sites internet distinct, on parle dans les deux cas de duplicate content. Il faut noter que certaines personnes utilise ce terme exclusivement lorsque deux pages sont exactement identique, alors que d'autres l'utilise un peu plus généralement pour spécifier qu'une partie du contenu a été dupliqué à partir d'une adresse internet.
En ce qui me concerne, je vais vous présenter dans cet article le "duplicate content" au sens large, c'est-à-dire que je ne vais pas me limiter au simple copie de page à l'identique mais plutôt aux copies de contenu.

Référencement

Cela peut paraitre anodins de copier des pages ou d'avoir deux URL distinctes pour exactement le même contenu, mais en réalité c'est mauvais pour le référencement. Il convient d'avoir un contenu unique et de qualité sur chaque page.

Source du problème

Le véritable problème trouve sa source dans le fonctionnement des moteurs de recherche. Ceux-ci essayent de proposer un contenu pertinent et de qualité pour les utilisateurs qui recherchent des informations. Si chaque page sur le net était dupliqué (involontairement ou non) cela poserait deux gros problèmes pour les moteurs de recherche:

  • L'index des moteurs de recherche serait énorme. Malheureusement, plus un moteurs de recherche a de pages dans son répertoire et plus il met de temps pour rechercher les informations, de plus il faut plus de serveurs pour héberger toutes ces informations supplémentaires. Et les serveurs supplémentaires consomme de l'énergie. Au final, si toutes les pages dupliqués étaient indexées le moteur de recherche Google perdrait beaucoup d'argent et d'énergie pour pas grand-chose.
  • Si un utilisateur cherche des informations particulières et que les 10 premiers résultats de Google sont exactement le même contenu, mais sur des pages différentes ou sur des sites différents, cela ne servirait à rien pour l'utilisateur. Ce que l'internaute lambda recherche, ce sont des informations de qualité et en aucun cas il ne doit pas perdre du temps à exclure lui-même des pages identiques.

Problème pour le référencement

Il existe deux principaux problème inhérent à une détection de contenu dupliqué. En sachant que Google essaie de garder que des contenus originaux, on peut deviner que Google va supprimer de son index les pages qui sont des doublons (dans le pire des cas). Dans une moindre mesure, il peut tout simplement arriver qu'une page soit déclasséé dans les résultats des moteurs de recherche parce que Google peut croire que c'est une simple copie.

Quoi qu'il en soit, les sites internet doivent essayer de garder qu'une seule page pour un même contenu. Si un site utilise deux pages pour dire exactement la même chose, alors le PageRank de ces deux pages est dilué (ce qui est un frein au référencement). S'il n'y avait eu qu'une seule page, le PageRank de la page unique serait certainement plus élevé.

Procédure utilisé par Google

Logo de Google
Logo de Google

Méthode de détection de duplicate content

A chaque fois que Google index une page, il l'analyse sous toutes les coutures. Dans son analyse, il regarde entre autres si le contenu est unique. Pour faire ça, il analyse en détail le texte et regarde par exemple le nombre de mots, les mots qui sont répétés plusieurs fois, etc...
Une fois que le texte est analysé il le compare aux autres pages qu'il a dans son index. Ainsi, il peut détecter facilement lorsque deux pages contiennent le même contenu "mot pour mot" (que ce soit sur un autre site internet ou alors sur le même). De même, il peut détecter aisément si c'est juste quelques paragraphes qui sont copiés.

Il faut noter que copier un texte en changeant un ou deux mots par phrase et en utilisant des synonymes n'est parfois pas suffisant, l'algorithme de Google peut tout de même détecter des supercheries de contenus dupliqué.

Il existe un merveilleux outil sur l'internet pour vérifier si son site est plagié. Vous indiquez l'adresse d'une page internet et cet outil va comparer cette page à toutes les pages internet qu'il a dans son index pour voir si deux contenus similaires sont trouvés. Cet outil c'est le site internet Copyscape.
Lorsque l'ont voient qu'un outil comme celui-ci, avec moins de serveurs que Google, arrive très facilement à trouver des contenus dupliqués (même partiellement), je vous laisse imaginer de quoi est capable Google qui a beaucoup plus de moyen et de très bons algorithme.

Procédure lorsqu'il y a duplicate content

Lorsque plusieurs résultats dans Google possède le même contenu, celui-ci va utiliser une méthodologie pour essayer de filtrer progressivement les résultats qui ne sont pas bons, dans le but de ne garder qu'une seule page dans ses résultats. Google va en effet essayer de trouver le site internet qui a proposé la version originale du contenu.

  1. Dans un premier temps, toutes les pages qui sont dans la liste noire de Google seront laissées de coter. De même, Google va essayer de mettre de coter les pages issus de site du genre: ferme de liens, Made For AdSense, ...
  2. Dans un second temps, Google regarde les liens entre les pages. Si la page A fait un lien vers la page B, cela signifie probablement que la page B est l'originale et que la page A n'a fait que reprendre le contenu en plaçant un lien vers la source original.
  3. Pour finir, Google va regarder la popularité de chaque page en fonction de leurs PageRank, probablement aussi de leurs TrustRank. Et surtout, il va regarder la date à laquelle chaque page a été indexée pour la première fois. La plus vieille page a le plus de chance d'être la source originale.

Sanction

calepin qui n'index pas

Lorsque Google a réussi à déterminer la page qu'il considère comme l'originale, entre toutes les pages identiques qu'il a en mémoire, il va plus ou moins pénaliser toutes les pages qui ne font que reprendre le contenu. En réalité, il n'y a pas toujours des sanctions car parfois la sanction c'est tout simplement de se faire doubler dans les résultats des moteurs de recherche.

Pages exactement identiques

Lorsque deux pages sont exactement identique (même contenu, menu, images et entête), cela signifie qu'il y a un site miroir. Autrement dit, il y a une URLs en trop et la sanction c'est tout simplement qu'il indexe uniquement une page. C'est généralement la page qui a le plus fort PageRank qui est gardée.

Dans ce type de cas, le PageRank des autres pages est attribué à la page qui est gardée.

Pages similaires

Il arrive que des pages soient similaires et dans ce cas de figure la principale sanction c'est un déclassement dans les résultats de Google. Le déclassement peut être minime (perte de 10 positions dans les résultats) ou alors il peut être pire (perte d'une centaine de positions dans les résultats de recherche). Il peut surtout arriver que les pages ne soient pas présente dans les résultats à moins de "relancer la recherche en incluant les pages ignorées".

Bref, la sanction peut faire très mal surtout lorsque l'on sait que la plupart des utilisateurs de Google se limite à rechercher l'information que sur le premier résultat.

A savoir

Attention: Malgré l'algorithme puissant de Google, rien ne l'empêche de faire des erreurs et de croire (à tort) qu'un contenu original n'est qu'une vulgaire copie. Par conséquent il peut appliquer l'une des sanctions présentées plus tôt, sur une page qui ne le mérite pas, sans faire exprès.
Cela arrive beaucoup plus souvent qu'on ne le pense.

Pour éviter facilement le duplicate content sur son site, il convient d'être minutieux et d'éviter des sottises assez simple à éviter. Dans un prochain article je vais présenter une petite liste des erreurs courante qui amène involontairement du contenu dupliqué.


Article rédigé par Tony_ le 29/10/2008 à 19h27 dans la catégorie "Présentation" du site InfoWebMaster.fr.