Algorithme, pénalisation et scoring
Le dernier Google Hangout a porté en partie sur les mécanismes de sortie de pénalité de Pingouin et Panda. Comme l’a signalé HawkEye sur WRI, la formulation des Googlers est loin d’être claire… Pourtant, si on essaye de résumer, au delà des hésitations, des imprécisions et des apparentes contradictions, se dégage un mécanisme qui semble assez clair.
Reprenons ce que disent les Googlers :
- Panda et Pingouin sont des algorithmes spécifiques, ils ne sont pas mis à jour en permanence, mais uniquement une fois de temps en temps.
- Si on a été frappé par Pingouin, il faut attendre la prochaine “mise à jour”
- Ce ne sont pas des pénalités : il vaut mieux être frappé par une pénalité manuelle, qui peut être levée rapidement, que déclassé par l’algorithme, car il faut attendre sa mise à jour.
- Panda et Pingouin sont intégrés à l’algorithme quotidien
- Pingouin est un des éléments parmi les fameux plus de deux cent facteurs…
- Même en cas de coïncidence avec une date de mise à jour de l’algorithme, on ne peut pas être certain que sa perte de visibilité découle de l’algorithme
- Quand on est pénalisé par l’algorithme, on peut faire remonter son site avant la prochaine mise à jour en retravaillant sur tous les aspects de son site
- Un site qui est pénalisé par l’algorithme peut ne pas perdre en visibilité – trafic si c’est un site important, par exemple, avec beaucoup de contenu
- Quand on est déclassé par l’algorithme, le site est réévalué
C’est la définition d’un mécanisme de scoring
Dis comme cela, et mis en liste, cela parait contradictoire, en réalité, non. On peut résumer cela de façon assez synthétique, et cohérente :
Pingouin et Panda sont des scorings, qui sont calculés de façon ponctuelle, et dont le résultat est intégré aux “200 et plus facteurs” de ranking. Bien que le poids de ces scores soit important, être excellent sur les 199 et plus autres facteurs permet d’éviter l’impact de ces scores sur le site.
Pourquoi la mise à jour n’est pas quotidienne comme le reste ?
Sans doute parce que l’algorithme est particulièrement lourd, d’une part. On revient pour aux anciens temps de Google Dance, quand le PR était essentiel, et n’était pas mis à jour en temps réel.
D’autre part, sans doute parce que chaque mise à jour est l’occasion d’intégrer des améliorations par rapport à la précédente version, adaptés par langue.
La deuxième partie est une hypothèse, qui a le mérite d’expliquer les brusques déclassements “incompréhensibles” par rapport aux autres sites, et les difficultés à revenir en place.
Un mauvais score déclenche une réévaluation en profondeur
On a tous vu des sites anciens qui ne respectent aucune des guidelines et qui occupent pourtant des places qu’on juge imméritées. Ces sites semblent indéboulonnables, jusqu’à ce qu’ils disparaissent, un jour ou l’autre.
Et si Google travaillait en “delta” ?
Un site apparait… il bénéficie d’une prime de fraicheur, à la durée variable, et au bout d’un certain temps, il trouve son vrai classement. A partir de là, il va falloir travailler pour lui faire retrouver sa position initiale.
Les modifications faites sur le site ont un impact positif ou négatif, assez rapide.
Et puis peu à peu le site s’installe.
Un incident ou une grosse modification survient : une indisponibilité serveur, une redirection 301 sur un nouveau nom de domaine. Le site ne retrouve pas ses positions.
C’est comme si certains des 200 et quelques facteurs, si ils avaient une note trop basse, certains événements particuliers déclenchent une réévaluation complète en profondeur du site. Soudainement, ce qui passait “en différentiel” ne passe plus.
La disparition du trustrank en dommage collatéral
L’autre explication viendrait d’une remise à zéro d’un “trustrank”. Je n’aime pas ce terme, car il ne correspond à rien d’officiellement connu chez Google, et on le confond trop facilement avec l’indicateur de Yahoo, mais le trustrank, c’est la prime au bon élève, au site ancien, stable, à celui qu’on n’a jamais pris la main dans le sac à faire de la sur-optimisation.
Un mauvais scoring sur Panda ou Pingouin, une indisponibilité de longue durée, et c’est le trustrank qui est remis à zéro, voire même passe en négatif ?
On a l’habitude de rendre la pénalité Pingouin (ou Panda) responsable, et de trouver parfaitement injuste que le site ne revienne pas sur ses positions antérieures, une fois le problème de contenu ou de liens réglé.
Quand on a été frappé par Panda / Pingouin, un ou plusieurs des “200 facteurs” de l’algorithme sont affectés négativement, et ne redeviendront positifs qu’au prochain scoring (ou mise à jour de l’algorithme). Un de ces facteurs est une sorte de trustrank, qui ne dépend pas que des points pénalisés par l’algorithme et peut donc rester négatif même si les problèmes spécifiques ont été corrigés.
En dehors d’une pénalité manuelle, c’est toujours l’ensemble des “200 facteurs” qui est pris en compte, mais certains facteurs – dont ceux liés à Panda / Pingouin – sont plus importants que d’autres.
Ca fait du sens, non ? (Comme disent les Québécois)
(L’image qui illustre cet article est sous licence CC BY NC SA par Manu Escalante)
Hello Marie-Aude,
Merci pour ton compte-rendu, il y a toujours un enseignement à tirer d’une communication de Googlers comme ce hangout… Et parfois il y a beaucoup à apprendre des non-dits, autant que de ce qui est abordé. J’ai particulièrement apprécié leur information à propos des mises à jour indépendantes des différents modules qui composent les outils pour webmasters Google : l’équipe Sitemap est indépendante de l’équipe trafic, etc
Ce qui permet de mieux comprendre pourquoi certaines infos paraissent si irrégulières .
Oui, c’est tout à fait vrai. En dehors de la partie pénalité, le reste était aussi plein d’infos intéressantes. Merci de ton passage :)
Merci pour le résumé de ce Google Hangout, je n’ai eu le temps que d’en voir une partie, et ton résumé permet d’y voir un peu plus clair.
J’ai quand même été surprise par le manque de réponse apportés par les employés Google, concernant le désaveu de liens massifs.
A l’heure actuelle, Google n’a toujours pas mis de solutions en place pour désavouer (autrement que manuellement) des liens de mauvaise qualité ou artificiels. Plutôt inquiétant si votre site est victime de Spam Hack.
En d’autres termes, Google met en place des pénalités pour sanctionner les techniques frauduleuses, mais n’aide par les sites victimes de ces techniques frauduleuses comme le Spam Hack.
Bonjour Marie-Aude,
En effet, ce hangout est riche d’enseignements que j’ai moi-même tenté de résumer et surtout d’interprêter, car il faut dire que tout n’est pas toujours très clair et qu’à plusieurs reprises Zineb et Vincent semblent s’être mélangé les pinceaux.
D’ailleurs, à chaque fois qu’ils ont été déstabilisés, ils se sont efforcés de passer à la question suivante.
Ce qui m’a fait le plus “sourire”, tout comme Olivier Duffez, c’est quand Vincent ose prétendre que Google est incapable de savoir si un lien est cliqué ou non par les internautes, celle-là, je pense que personne n’y a cru.
Cordialement,
Bruno
Hello M-A.
Si j’ai bien compris le propos, tu considères que l’algo Panda et Pingouin sont des espèces de scores qui ont la capacité de déclencher des d’évènements sur la revue des 200 facteurs sur 1 site en particulier.
Ainsi, compte tenu du nombre de facteurs et du nombre de sites à surveiller, c’est le moyen le plus rapide et le moins gourmand qu’a trouvé Google pour garantir la qualité de ses résultats ? ^^a
Sinon, j’ai vu une petite coquille à la fin : “dont ceux liés à Pandan / Pingouin”.
En tout cas merci pour l’article, c’est toujours intéressant d’avoir 1 point de vue là-dessus.
Quand tu dis “c’est le moyen le plus rapide et le moins gourmand”, ce n’est pas exactement cela.
Ce sont manifestement des algos lourds à calculer. D’ailleurs Google réfléchit à les calculer plus souvent. Les autres facteurs sont calculés en temps réel, pas ceux là. Et ceux là doivent avoir un poids assez lourd dans les 200 facteurs… mais je ne pense pas que cela soit un “remplacement” du reste.
En revanche, cela veut peut-être dire que Google en a ras la casquette de ces pratiques par des sites de qualité :)
(Coquille corrigée)
Disons que ça me fait penser à la Google Dance sauf qu’aujourd’hui c’est en temps réel. Par conséquent, on peut déduire que le mécanisme de gestion des facteurs a été optimisé depuis le temps.
Ainsi, effectivement je voyais cela comme une amélioration de l’algo global qui possède beaucoup de strates et donc de traitements informatiques.
Quand j’évoque le moyen le plus rapide et le moins gourmand, c’est plutôt dans la méthode de lancement des algos Panda / Pingouin en fait : des flags qui vont permettre de revoir le score d’un domaine plutôt que de calculer le score d’un domaine qui lancerait éventuellement les 2 algos pré-cités. :-)
C’est juste une histoire d’ordre des évènements.
Si j’ai bien compris, pour toi ces 2 algos seraient plutôt une couche supplémentaire à l’algo global qui calculerait des scores qui peuvent éventuellement déclencher une réévaluation du domaine, c’est ça ? :-)
En fait, selon moi tu as un scoring à part, calculé une fois de temps en temps, dont le résultat est intégré dans le scoring global, les “200 facteurs” qui vont être recalculés en temps réels, une sorte de constante au milieu de variables.
Et effectivement, c’est similaire à la Google Dance
Yo,
Elle le dit la gonzesse. Panda et Penguin prennent en compte 5 à 6 facteurs chacun sur les 200. Ces deux algos sont lancés à intervalles (sans doute parce qu’ils sont lourds). Par contre les “notations” sur les 200 facteurs bougent pratiquement en temps réel avec l’algorithme général.
On pourrait comparer Google à un prof. de math. Tous les jours tu as des interros pour lesquels tu as bon ou tu as faux pour chaque réponse. Tu as ta moyenne chaque trimestre. Et puis un jour, tu as l’interro surprise. Si le prof. de math s’aperçoit que tu triches ou que tu étais surévalué, il te met un zéro. Ce zéro peut te plomber si tu es proche de la moyenne. Mais si tu as toujours eu de bonnes notes auparavant, ce zéro peut juste faire un peu baisser ta moyenne.
Bon l’image est nulle… mais c’est ça non? :p
C’est ça :)