Accueil > Articles > PrÃ©sentation du duplicate content

PrÃ©sentation du duplicate content

Le duplicate content peut Ãªtre un vÃ©ritable problÃ¨me en rÃ©fÃ©rencement pour bien indexer des pages. Le moteur de recherche Google essaie de lutter contrer la copie de texte et il convient de bien comprendre pourquoi le contenu dupliquÃ© est susceptible d'Ãªtre pÃ©nalisant pour un site. C'est la raison pour laquelle cet article explique toutes les bases Ã connaitre sur ce sujet.

PrÃ©sentation

fiche similaire mais de couleurs diffÃ©rentes

Le terme "duplicate content" viens de l'anglais et signifie "contenu dupliquÃ©". On utilise gÃ©nÃ©ralement ce terme lorsqu'un contenu identique ou presque similaire est dÃ©tectÃ© sur deux pages (ou deux URL) distinctes. Effectivement, lorsqu'un mÃªme contenu est disponible partiellement ou en intÃ©gralitÃ© Ã partir de plusieurs adresses internet diffÃ©rentes, cela signifie que le contenu a Ã©tÃ© dupliquÃ© (volontairement ou non).

Que les contenus identiques soient sur le mÃªme site internet ou sur deux sites internet distinct, on parle dans les deux cas de duplicate content. Il faut noter que certaines personnes utilise ce terme exclusivement lorsque deux pages sont exactement identique, alors que d'autres l'utilise un peu plus gÃ©nÃ©ralement pour spÃ©cifier qu'une partie du contenu a Ã©tÃ© dupliquÃ© Ã partir d'une adresse internet.
En ce qui me concerne, je vais vous prÃ©senter dans cet article le "duplicate content" au sens large, c'est-Ã -dire que je ne vais pas me limiter au simple copie de page Ã l'identique mais plutÃ´t aux copies de contenu.

RÃ©fÃ©rencement

Cela peut paraitre anodins de copier des pages ou d'avoir deux URL distinctes pour exactement le mÃªme contenu, mais en rÃ©alitÃ© c'est mauvais pour le rÃ©fÃ©rencement. Il convient d'avoir un contenu unique et de qualitÃ© sur chaque page.

Source du problÃ¨me

Le vÃ©ritable problÃ¨me trouve sa source dans le fonctionnement des moteurs de recherche. Ceux-ci essayent de proposer un contenu pertinent et de qualitÃ© pour les utilisateurs qui recherchent des informations. Si chaque page sur le net Ã©tait dupliquÃ© (involontairement ou non) cela poserait deux gros problÃ¨mes pour les moteurs de recherche:

L'index des moteurs de recherche serait Ã©norme. Malheureusement, plus un moteurs de recherche a de pages dans son rÃ©pertoire et plus il met de temps pour rechercher les informations, de plus il faut plus de serveurs pour hÃ©berger toutes ces informations supplÃ©mentaires. Et les serveurs supplÃ©mentaires consomme de l'Ã©nergie. Au final, si toutes les pages dupliquÃ©s Ã©taient indexÃ©es le moteur de recherche Google perdrait beaucoup d'argent et d'Ã©nergie pour pas grand-chose.
Si un utilisateur cherche des informations particuliÃ¨res et que les 10 premiers rÃ©sultats de Google sont exactement le mÃªme contenu, mais sur des pages diffÃ©rentes ou sur des sites diffÃ©rents, cela ne servirait Ã rien pour l'utilisateur. Ce que l'internaute lambda recherche, ce sont des informations de qualitÃ© et en aucun cas il ne doit pas perdre du temps Ã exclure lui-mÃªme des pages identiques.

ProblÃ¨me pour le rÃ©fÃ©rencement

Il existe deux principaux problÃ¨me inhÃ©rent Ã une dÃ©tection de contenu dupliquÃ©. En sachant que Google essaie de garder que des contenus originaux, on peut deviner que Google va supprimer de son index les pages qui sont des doublons (dans le pire des cas). Dans une moindre mesure, il peut tout simplement arriver qu'une page soit dÃ©classÃ©Ã© dans les rÃ©sultats des moteurs de recherche parce que Google peut croire que c'est une simple copie.

Quoi qu'il en soit, les sites internet doivent essayer de garder qu'une seule page pour un mÃªme contenu. Si un site utilise deux pages pour dire exactement la mÃªme chose, alors le PageRank de ces deux pages est diluÃ© (ce qui est un frein au rÃ©fÃ©rencement). S'il n'y avait eu qu'une seule page, le PageRank de la page unique serait certainement plus Ã©levÃ©.

ProcÃ©dure utilisÃ© par Google

Logo de Google

MÃ©thode de dÃ©tection de duplicate content

A chaque fois que Google index une page, il l'analyse sous toutes les coutures. Dans son analyse, il regarde entre autres si le contenu est unique. Pour faire Ã§a, il analyse en dÃ©tail le texte et regarde par exemple le nombre de mots, les mots qui sont rÃ©pÃ©tÃ©s plusieurs fois, etc...
Une fois que le texte est analysÃ© il le compare aux autres pages qu'il a dans son index. Ainsi, il peut dÃ©tecter facilement lorsque deux pages contiennent le mÃªme contenu "mot pour mot" (que ce soit sur un autre site internet ou alors sur le mÃªme). De mÃªme, il peut dÃ©tecter aisÃ©ment si c'est juste quelques paragraphes qui sont copiÃ©s.

Il faut noter que copier un texte en changeant un ou deux mots par phrase et en utilisant des synonymes n'est parfois pas suffisant, l'algorithme de Google peut tout de mÃªme dÃ©tecter des supercheries de contenus dupliquÃ©.

Il existe un merveilleux outil sur l'internet pour vÃ©rifier si son site est plagiÃ©. Vous indiquez l'adresse d'une page internet et cet outil va comparer cette page Ã toutes les pages internet qu'il a dans son index pour voir si deux contenus similaires sont trouvÃ©s. Cet outil c'est le site internet Copyscape.
Lorsque l'ont voient qu'un outil comme celui-ci, avec moins de serveurs que Google, arrive trÃ¨s facilement Ã trouver des contenus dupliquÃ©s (mÃªme partiellement), je vous laisse imaginer de quoi est capable Google qui a beaucoup plus de moyen et de trÃ¨s bons algorithme.

ProcÃ©dure lorsqu'il y a duplicate content

Lorsque plusieurs rÃ©sultats dans Google possÃ¨de le mÃªme contenu, celui-ci va utiliser une mÃ©thodologie pour essayer de filtrer progressivement les rÃ©sultats qui ne sont pas bons, dans le but de ne garder qu'une seule page dans ses rÃ©sultats. Google va en effet essayer de trouver le site internet qui a proposÃ© la version originale du contenu.

Dans un premier temps, toutes les pages qui sont dans la liste noire de Google seront laissÃ©es de coter. De mÃªme, Google va essayer de mettre de coter les pages issus de site du genre: ferme de liens, Made For AdSense, ...
Dans un second temps, Google regarde les liens entre les pages. Si la page A fait un lien vers la page B, cela signifie probablement que la page B est l'originale et que la page A n'a fait que reprendre le contenu en plaÃ§ant un lien vers la source original.
Pour finir, Google va regarder la popularitÃ© de chaque page en fonction de leurs PageRank, probablement aussi de leurs TrustRank. Et surtout, il va regarder la date Ã laquelle chaque page a Ã©tÃ© indexÃ©e pour la premiÃ¨re fois. La plus vieille page a le plus de chance d'Ãªtre la source originale.

Sanction

Lorsque Google a rÃ©ussi Ã dÃ©terminer la page qu'il considÃ¨re comme l'originale, entre toutes les pages identiques qu'il a en mÃ©moire, il va plus ou moins pÃ©naliser toutes les pages qui ne font que reprendre le contenu. En rÃ©alitÃ©, il n'y a pas toujours des sanctions car parfois la sanction c'est tout simplement de se faire doubler dans les rÃ©sultats des moteurs de recherche.

Pages exactement identiques

Lorsque deux pages sont exactement identique (mÃªme contenu, menu, images et entÃªte), cela signifie qu'il y a un site miroir. Autrement dit, il y a une URLs en trop et la sanction c'est tout simplement qu'il indexe uniquement une page. C'est gÃ©nÃ©ralement la page qui a le plus fort PageRank qui est gardÃ©e.

Pages similaires

Il arrive que des pages soient similaires et dans ce cas de figure la principale sanction c'est un dÃ©classement dans les rÃ©sultats de Google. Le dÃ©classement peut Ãªtre minime (perte de 10 positions dans les rÃ©sultats) ou alors il peut Ãªtre pire (perte d'une centaine de positions dans les rÃ©sultats de recherche). Il peut surtout arriver que les pages ne soient pas prÃ©sente dans les rÃ©sultats Ã moins de "relancer la recherche en incluant les pages ignorÃ©es".

Bref, la sanction peut faire trÃ¨s mal surtout lorsque l'on sait que la plupart des utilisateurs de Google se limite Ã rechercher l'information que sur le premier rÃ©sultat.

A savoir

Attention: MalgrÃ© l'algorithme puissant de Google, rien ne l'empÃªche de faire des erreurs et de croire (Ã tort) qu'un contenu original n'est qu'une vulgaire copie. Par consÃ©quent il peut appliquer l'une des sanctions prÃ©sentÃ©es plus tÃ´t, sur une page qui ne le mÃ©rite pas, sans faire exprÃ¨s.
Cela arrive beaucoup plus souvent qu'on ne le pense.

Pour Ã©viter facilement le duplicate content sur son site, il convient d'Ãªtre minutieux et d'Ã©viter des sottises assez simple Ã Ã©viter. Dans un prochain article je vais prÃ©senter une petite liste des erreurs courante qui amÃ¨ne involontairement du contenu dupliquÃ©.

Article rédigé par Tony_ le 29/10/2008 à 19h27 dans la catégorie "Présentation" du site InfoWebMaster.fr.

Imprimer cette page