Le duplicate content peut être un véritable problème en référencement pour bien indexer des pages. Le moteur de recherche Google essaie de lutter contrer la copie de texte et il convient de bien comprendre pourquoi le contenu dupliqué est susceptible d'être pénalisant pour un site. C'est la raison pour laquelle cet article explique toutes les bases à connaitre à le sujet.

Le terme "duplicate content" viens de l'anglais et signifie "contenu dupliqué". On utilise généralement ce terme lorsqu'un contenu identique ou presque similaire est détecté sur deux pages (ou deux URL) distinctes. Effectivement, lorsqu'un même contenu est disponible partiellement ou en intégralité à partir de plusieurs adresses internet différentes, cela signifie que le contenu a été dupliqué (volontairement ou non).
Que les contenus identiques soient sur le même site internet ou sur deux sites internet distinct, on parle dans les deux cas de duplicate content. Il faut noter que certaines personnes utilise ce terme exclusivement lorsque deux pages sont exactement identique, alors que d'autres l'utilise un peu plus généralement pour spécifier qu'une partie du contenu a été dupliqué à partir d'une adresse internet.
En ce qui me concerne, je vais vous présenter dans cet article le "duplicate content" au sens large, c'est-à-dire que je ne vais pas me limiter au simple copie de page à l'identique mais plutôt aux copies de contenu.
Le véritable problème trouve sa source dans le fonctionnement des moteurs de recherche. Ceux-ci essayent de proposer un contenu pertinent et de qualité pour les utilisateurs qui recherchent des informations. Si chaque page sur le net était dupliqué (involontairement ou non) cela poserait deux gros problèmes pour les moteurs de recherche:
Il existe deux principaux problème inhérent à une détection de contenu dupliqué. En sachant que Google essaie de garder que des contenus originaux, on peut deviner que Google va supprimer de son index les pages qui sont des doublons (dans le pire des cas). Dans une moindre mesure, il peut tout simplement arriver qu'une page soit déclasséé dans les résultats des moteurs de recherche parce que Google peut croire que c'est une simple copie.
Quoi qu'il en soit, les sites internet doivent essayer de garder qu'une seule page pour un même contenu. Si un site utilise deux pages pour dire exactement la même chose, alors le PageRank de ces deux pages est dilué (ce qui est un frein au référencement). S'il n'y avait eu qu'une seule page, le PageRank de la page unique serait certainement plus élevé.

A chaque fois que Google index une page, il l'analyse sous toutes les coutures. Dans son analyse, il regarde entre autres si le contenu est unique. Pour faire ça, il analyse en détail le texte et regarde par exemple le nombre de mots, les mots qui sont répétés plusieurs fois, etc...
Une fois que le texte est analysé il le compare aux autres pages qu'il a dans son index. Ainsi, il peut détecter facilement lorsque deux pages contiennent le même contenu "mot pour mot" (que ce soit sur un autre site internet ou alors sur le même). De même, il peut détecter aisément si c'est juste quelques paragraphes qui sont copiés.
Il faut noter que copier un texte en changeant un ou deux mots par phrase et en utilisant des synonymes n'est parfois pas suffisant, l'algorithme de Google peut tout de même détecter des supercheries de contenus dupliqué.
Il existe un merveilleux outil sur l'internet pour vérifier si son site est plagié. Vous indiquez l'adresse d'une page internet et cet outil va comparer cette page à toutes les pages internet qu'il a dans son index pour voir si deux contenus similaires sont trouvés. Cet outil c'est le site internet Copyscape.
Lorsque l'ont voient qu'un outil comme celui-ci, avec moins de serveurs que Google, arrive très facilement à trouver des contenus dupliqués (même partiellement), je vous laisse imaginer de quoi est capable Google qui a beaucoup plus de moyen et de très bons algorithme.
Lorsque plusieurs résultats dans Google possède le même contenu, celui-ci va utiliser une méthodologie pour essayer de filtrer progressivement les résultats qui ne sont pas bons, dans le but de ne garder qu'une seule page dans ses résultats. Google va en effet essayer de trouver le site internet qui a proposé la version originale du contenu.

Lorsque Google a réussi à déterminer la page qu'il considère comme l'originale, entre toutes les pages identiques qu'il a en mémoire, il va plus ou moins pénaliser toutes les pages qui ne font que reprendre le contenu. En réalité, il n'y a pas toujours des sanctions car parfois la sanction c'est tout simplement de se faire doubler dans les résultats des moteurs de recherche.
Lorsque deux pages sont exactement identique (même contenu, menu, images et entête), cela signifie qu'il y a un site miroir. Autrement dit, il y a une URLs en trop et la sanction c'est tout simplement qu'il indexe uniquement une page. C'est généralement la page qui a le plus fort PageRank qui est gardée.
Dans ce type de cas, le PageRank des autres pages est attribué à la page qui est gardée.
Il arrive que des pages soient similaires et dans ce cas de figure la principale sanction c'est un déclassement dans les résultats de Google. Le déclassement peut être minime (perte de 10 positions dans les résultats) ou alors il peut être pire (perte d'une centaine de positions dans les résultats de recherche). Il peut surtout arriver que les pages ne soient pas présente dans les résultats à moins de "relancer la recherche en incluant les pages ignorées".
Bref, la sanction peut faire très mal surtout lorsque l'on sait que la plupart des utilisateurs de Google se limite à rechercher l'information que sur le premier résultat.
Attention: Malgré l'algorithme puissant de Google, rien ne l'empêche de faire des erreurs et de croire (à tort) qu'un contenu original n'est qu'une vulgaire copie. Par conséquent il peut appliquer l'une des sanctions présentées plus tôt, sur une page qui ne le mérite pas, sans faire exprès.
Cela arrive beaucoup plus souvent qu'on ne le pense.
Pour éviter facilement le duplicate content sur son site, il convient d'être minutieux et d'éviter des sottises assez simple à éviter. Dans un prochain article je vais présenter une petite liste des erreurs courante qui amène involontairement du contenu dupliqué.
Merci d'avoir lu cet article. Il vous reste maintenant plusieurs choix: parler de cet article à vos amis, imprimer cette page, commenter cet article, voir les articles de la même thématique ou alors quitter votre ordinateur. 