Accueil > Articles > TrustRank: Explications

TrustRank: Explications

Le TrustRank est un paramètre très important pour le référencement de nos jours. Il devient tout autant important que le PageRank, longtemps considéré comme le seul élément valable pour un bon référencement.
Cet article va présenter en détails les données importantes relatives à ce sujet.

Présentation générale

Traduction

Pour ceux qui ne connaissent pas trop l'anglais, le terme TrustRank peut se décomposer en deux mots:

Trust: mot anglais qui signifie "confiance" en français
Rank: signifie "rang" en français

Grâce à ces deux traductions il est possible d'essayer de traduire le terme entier. Il y a deux traductions pas trop mauvaises en français qui semblent possibles: "rang de confiance" ou "rang qualitatif".

Les multiples facettes du TrustRank

Le TrustRank combat le web-spam

La seconde choses à savoir est que le TrustRank peut désigner plusieurs éléments selon les points de vue et les personnes. Ainsi certains vont l'employer pour un seul des cas présentés ci-dessous:

Le nom d'un algorithme qui cherche à réduire le spam des moteurs de recherche
Le nom d'un filtre utilisé par Google pour lutter contre le phising (hameçonnage). Mais ce filtre est probablement un bon moyen de connaître la qualité de chaque page web
Une marque déposée par Google en mars 2005

D'une façon générale cet article va essayer de présenter ces quelques points afin de mettre en avant l'importance des pages de qualité et la façon dont Google a modifié sa façon d'analyser les pages et les sites, dans le but de fournir des résultats très pertinents (de qualité).

Présentation détaillée de l'algorithme

Historique

L'algorithme du TrustRank a sa petite histoire qu'il est intéressant de connaître. Tout est né à partir de mars 2004 à l'université de Stanford avec trois chercheurs qui ont rédigé un document. Deux de ceux-ci se nomment "Zoltan Gyongyi" et "Hector Garcia-Molina" et le troisième est un chercheur de la société Yahoo! qui s'appelle "Jan Pedersen". Le document qu'ils ont publié s'intitule "Combattre le web-spam avec le TrustRank" (en anglais: "Combating Web Spam with TrustRank"). Ils y expliquent une méthode permettant de savoir si un site est de qualité ou non (et par conséquent savoir si un site est du spam).

Pour l'anecdote, il faut savoir que l'université de Stanford (l'université de deux de ces chercheurs) a formé Larry Page et Sergey Brin (les fondateurs de Google). Ceux-ci se sont d'ailleurs connus à cette université et ont débuté l'aventure Google à ce moment là.

Il faut bien remarquer que l'une des trois personnes qui a rédigé l'article "Combattre le web-spam avec le TrustRank" est un chercheur de Yahoo!. Sachant que Yahoo! est un gros concurrent de Google, c'est assez ironique de savoir que maintenant Google utiliserait surement cette trouvaille pour son moteur de recherche. S'il ne l'utilise pas, il en utilise peut-être un dérivé.

Présentation de l'algorithme

Le document officiel explique le fonctionnement de cet algorithme. Afin d'amorcer l'algorithme il est nécessaire au préalable de faire une liste des sites de qualité. Ensuite l'algorithme analyse ces sites de qualité et peut déterminer la qualité des pages de l'internet tout entier.

Les points qui vont suivre, vont tenter d'expliquer en détails les principes fondamentaux de l'algorithme du TrustRank.

1) Partir d'une liste de références

La fameuse "liste de référence" qui est le point de départ de l'algorithme peut être composée d'environ 200 sites pour donner de bons résultats. Parmi ces 200 sites il y a certainement des sites gouvernementaux, des sites éducatifs ...
D'une façon générale, on peut imaginer que Wikipedia et les sites avec de bonnes extensions de domaine sont présents sur cette liste de référence.

Lorsque l'ont parle d'extensions de domaine qui sont considérées "de qualité", on parle des extensions tel que .gov (site gourvernementaux) ou .edu (sites éducatif).

2) La notation

Avec le TrustRank chaque page internet possède une note représentant sa qualité. Cette note est un chiffre à virgule compris entre 0 et 1.

Un site qui a une valeur proche de zéro est considéré comme du spam alors qu'un site qui a une note proche de 1 est considéré comme un site de référence. D'ailleurs, tous les sites présents dans la liste de références ont une note égale à 1.

3) La méthode de calcul

Schéma de principe des niveaux dans le TrustRank

Schéma symbolisant les niveaux
dans l'algorithme du TrustRank

Au lieu d'expliquer la méthode de calcul de façon très théorique il est préférable d'en faire l'idéologie du TrustRank, autrement dit: le principe fondateur du TrustRank!

L'idée de départ consiste à se dire qu'un site spam fait probablement des liens vers d'autres sites de spam, mais qu'à aucun moment un site de qualité ne fera de liens vers un site de spam. Ainsi, en regardant de quelle manière les sites internet sont liés entre eux, il est possible de déterminer les sites de mauvaise qualité.

A l'aide de ce principe fondateur, on peut se dire qu'un site présent dans la liste des sites de référence va faire des liens uniquement vers des sites qu'il considère comme des sites de qualité. Pour ne pas se perdre ont va dire que les 200 sites de références font partie du niveau 1.
Tous les sites qui ont la chance de recevoir des liens en provenance du niveau 1 seront alors appelés les sites du niveau 2. Le niveau 2 va ainsi récupérer un peu de TrustRank mais ils resteront des sites de moins bonne qualité que le niveau 1. A titre d'exemple on peut imaginer que les sites du niveau 2 vont peut-être obtenir des valeurs de TrustRank comprises entre 0,8 et 0,9 (exemple purement fictif).
Ensuite les sites du niveau 2 vont inévitablement faire des liens vers d'autres sites, ce sera le niveau 3. Les sites du niveau 3 obtiennent ainsi des valeurs de TrustRank inférieures au niveau qui les précède.

Si on poursuit ce schéma en forme de cascade, on peut encore descendre de nombreux paliers. Plus les sites seront éloignés du niveau 1 et plus ils auront du mal à avoir un TR important.

Sur le schéma à votre droite, vous pourrez voir ces fameux niveaux. Le niveau 1 (en vert) aura un potentiel de confiance maximum tandis que le niveau 4 (en rouge) aura un potentiel de confiance réduit. Sur ce schéma il n'y a que 4 niveaux mais c'est juste à titre d'exemple car dans la réalité il y aura bien plus de niveaux.

Présentation détaillée de l'indice utilisé par Google

A ma connaissance à l'heure actuelle, rien ne permet de certifier que Google utilise l'algorithme décrit précédemment pour classer les résultats lors d'une requête. Mais il est certain qu'il utilise au moins une dérivée de celui-ci dans le but de prendre en compte la confiance et la qualité des pages web. La popularité seule d'une page web n'est plus l'un des uniques facteurs permettant le classement des pages dans les résultats de recherche.

Méthodes utilisées pour le filtre

D'une manière plus globale, il est fort probable que Google analyse les pages avec d'autres facteurs que la thématique, pour savoir si une page est dite de "confiance". Dans les petits chapitres qui vont suivre je vais essayer de présenter les points qui semblent être pris en compte pour déterminer la confiance d'un site.

Certificat SSL

Élément incontournable pour déterminer si un site est de qualité ou non, le certificat SSL permet de vous donner un coup de boost aux yeux de Google. Malheureusement il est cher, même très cher, surtout pour des petits sites internet. Son utilisation est surtout prévue pour les sites d'e-commerce, donc les petits sites perso et les blogs ne vont pas investir là-dedans.

Service et logos "Hacker Safe"

Le service de certification de la sécurité des sites internet, intitulé "Hacker Safe", est un élément de plus qui permet à Google de faire son choix parmi les sites de confiance.

Durée de vie du domaine

On peut voir de nos jours que les sites qui ont une longue durée de vie sont appréciés par Google, qui considère que ce sont des sites de confiance. Le meilleur des cas serait un nom de domaine de 10 ans d'âge. Comme les vins, plus c'est vieux et mieux c'est.

Il faut comprendre que généralement les sites de spam possèdent des noms de domaine récents, c'est pour cela que Google permet de déceler les sites de confiance grâce à la durée de vie du nom de domaine.

Information de contact

Il est nécessaire d'avoir des informations de qualité associées à son nom de domaine. Autrement dit, le WhoIs doit fournir des informations sur votre nom, votre adresse, vos informations de contact ...

Pour ceux qui débutent, le WhoIs (qui signifie "qui est" en anglais) donne des informations de contacts au nom de domaine. Lorsque vous achetez votre nom de domaine, il faut que vous acceptiez de donner vos informations dans le WhoIs pour que ce soit plus crédible pour Google.

Il semblerait aussi qu'il faille créer une page sur son site qui indique une adresse et des informations de contact. L'idéal serait peut-être de fournir les mêmes informations que celles inscrites sur le WhoIs. Mais ce n'est qu'une hypothèse.

Politique de confidentialité

N'hésitez pas à rédiger une page sur votre site, qui explique la politique de confidentialité. C'est un élément de plus qui est probablement analysé par Google.

Liens entrants

Le dernier point est celui qui peut faire la différence. Il convient d'avoir des liens entrants en provenance d'autres sites qui ont un fort TrustRank.

Un site d'une entreprise va par exemple avoir la possibilité d'avoir des liens en provenance du site des chambres du commerce, ou tout autre organisme qui n'est pas "bidon".
En effet, les sites des mairies vont en général faire des liens vers les sociétés implantées dans leurs villes, etc ...

Méthode qualitative déterminé par les liens

Attention: A proprement parlé le TrustRank de Google n'est qu'un filtre qui permet d'identifier des pages de mauvaises qualité, comme Google le laisse entendre dans la vidéo "Trust Rank Explained by Matt Cutts". Néanmoins, en vue de la thématique de cet article je vais un peu aborder ici une méthode possible par Google pour déterminer la qualité entre les pages (sans pour autant que cette méthode porte le nom "TrustRank").

De nos jours on sait que Google analyse les pages liées entre elles, afin de savoir si les liens sont pertinents. Cela permet de déterminer si les liens sont naturels ou non. Par contre cette méthodologie ne porte pas de nom spécifique (ce n'est pas vraiment lié au terme "TrustRank").
A titre d'exemple, il est par exemple très rare (pas naturel) qu'un site de jardinage fasse des liens vers un site qui vend des téléphones portables.

De manière plus générale, on peut dire que les sites web ont pour habitude de faire des liens uniquement vers d'autres sites de même thématique.

Il faut savoir que Google n'admet pas que des sites vendent des liens vers d'autres sites. L'un des seuls moyens pour lui de déterminer ce genre de pratique est de vérifier si les liens semblent naturel ou non.

Logo de Google Sets

C'est encore un peu flou mais il est possible que Google regarde la thématique des pages. Comme je l'ai dit précédemment, les sites ne se font généralement de liens que si la thématique est similaire. Il n'est pas vraiment difficile pour Google de déterminer si les thématiques sont proches. Voici la procédure que Google doit vraisemblablement appliquer:

Analyse de la page: Récupération de tous les mots.
Tri pour ne garder que les véritables mots pertinent. Les petits mots sans intérêt sont supprimés (exemple: du, le, la, se, son, vous, tu, je...)
A partir de cette nouvelle liste de mots il suffit à Google de les comparer pour deviner la thématique, ce qui ne lui ai pas impossible. D'ailleurs il propose déjà un outil similaire dans son labo d'essai, appelé Google Sets. Cet outil permet de créer des listes thématiques de mots-clés. Il vous suffit d'entrer plusieurs mots-clés et l'outil vous ressort une thématique encore plus large.

En tant qu'exemple concret pour continuer sur ce raisonnement, on peut imaginer que vous ayez une page qui parle de fleurs et que vous faites un liens vers un site qui vend des téléphones portables. Grâce à son algorithme, Google va générer deux listes de mots-clés et il va remarquer qu'aucun mot-clé n'est présent sur les deux listes à la fois. Par conséquent, les thématiques ne seront pas reliées et ce ne sera pas un lien naturel.

Présentation détaillée de la marque

Logo de l'USPTO

C'est le 16 mars 2005 que Google a déposé la marque "TrustRank". Pour s'en assurer, il est possible de jeter un coup d'œil sur le site de l'United States Patent and Trademark Office (USPTO).

Grâce à cette marque déposée, l'énorme entreprise Google se protège. Néanmoins, cela n'empêche pas des petits malins d'acheter des noms de domaines avec ce nom. C'est nom de domaine sont utilisé pour héberger des, soit disant, calculateurs de TrustRank. Mais ces outils n'ont rien d'officiel et d'ailleurs ils ne sont pas si exceptionnels que ça. Ils ne font que regarder certains critères (exemple, si le site est présent sur DMOZ, Digg, ...) et sur base de toutes ces informations ils génèrent une note (qui n'est pas du tout la valeur de TrustRank de Google).

En conclusion

La pertinence des résultats dans les moteurs de recherche est l'une des choses les plus importantes et en même temps la plus difficile à faire. Au fur et à mesure du temps, on découvre de nouveaux critères et des améliorations significatives par les moteurs de recherche.

Le TrustRank aujourd'hui est l'un des nombreux critères (peut-être 200) que Google utilise pour classer ses résultats. Mais en le comprenant et en le domptant c'est une petite amélioration supplémentaire.

Article rédigé par Tony_ le 11/01/2009 à 13h21 dans la catégorie "Découverte" du site InfoWebMaster.fr.

Imprimer cette page