Google : indexation et présentation des résultats
Il y a au moins trois processus différents dans la recherche Google :
- L’algorithme de positionnement, qui va déterminer comment une page se classe dans la page de résultat
- Les programmes de présentation, qui vont déterminer comment les résultats sont mis en évidence : choix du snippet, mise en gras des mots clés correspondant à la recherche…
- L’outil de correction orthographique, qui suggère une autre recherche en cas de mot mal orthographié, ou rare
Confondre ces trois processus, et croire que ce qui est utilisé pour la présentation, par exemple, sert au positionnement, c’est prendre de gros risques pour son référencement.
La présentation d’une page de résultats Google
En haut, dans la case de recherche, le mot recherché, freedictionnary, tout attaché.
Juste en dessous, Google propose une orthographe alternative, firedictionnary.
Ensuite, chaque résultat montre un petit morceau de texte, où le(s) mot(s) de la requête sont mis en évidence. (On voit d’ailleurs que dans les urls, ils ne sont pas isolés). C’est le “snippet”.
Le snippet et la balise meta description
Pour le premier site, c’est la balise meta “description” qui est reprise :
Definition of per se in the Online Dictionary. Meaning of per se. Pronunciation of per se. Translations of per se. per se synonyms, per se antonyms. Information about per se in the free online English dictionary and encyclopedia.
Pour Abondance, en revanche, en l’absence de balise description, c’est le contenu de la page elle-même qui est repris.
FreeDictionnary http://www.thefreedictionary.com/ Dictionnaire de synonymes http://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes/actualites-des/ …
Lequel des deux vous donne le plus envie de cliquer ?
Des tests ont été régulièrement menés, qui prouvent que Google ne prend pas la balise description en compte pour l’indexation et le positionnement.
Donc de nombreux webmasters, économes, l’abandonnent.
En pratique, elle est extrêmement utile comme élément de marketing de votre site.
La mise en évidence de chaines de caractères
Là je vous renvoie aux tests de séparateurs, mais pour résumer : les chaines de caractères mises en gras sont choisies sur le texte affiché dans la page de résultat. Même si elles se trouvent à l’intérieur d’un mot, alors que ces chaines ne sont pas utilisées pour le positionnement.
D’ailleurs, sur notre première url, la chaine recherchée n’a même pas été mise en évidence, puisqu’elle apparait dans le snippet.
A l’affichage, par un mécanisme de recherche de chaine, Google met en évidence les chaines de caractères correspondant à la requête, avec du caractère gras. Mais ce ne sont pas obligatoirement ces chaines de caractères qui ont été utilisées pour le positinnement.
La correction orthographique et la suggestion de recherches autres
Dans le cas d’un mot rare, renvoyant peu de résultats, ou d’un mot très proche d’un autre qui renvoie plus de résultats, Google va proposer une orthogrpahe alternative. “Peut-être vouliez vous dire ça ?”.
Le mécanisme est le même que celui employé dans la barre Google, ou dans le mini-moteur de recherche qu’on peut installer dans Firefox : un index des mots, les plus courants, et, pour le site Google, une liste des fautes de frappe les plus courantes, comme dans n’importe quel correcteur orthographique.
Mais cette fonction reste limitée : Google propose pourquoi pas en remplacement de pourquoi pzs et pourquoi pqs. Les deux premières sont des inversions classiques sur un clavier qwerty ou azerty, la troisième est plus difficile à faire.
Bien que Google ait identifié la faute de frappe, il ne propose pas les alternatives dans les résultats.
On est donc loin de la notion de contenu sémantique, qui est importante pour le positionnement (un texte, des synonymes, du contexte, des ancres variées, etc…). Il s’agit uniquement d’une analyse de chaîne de caractères, comparée aux entrées d’un index (pour résumer). Cette analyse peut se faire sur un index, en revanche il est illusoire d’imaginer que Google l’applique sur la totalité des possibilités de combinaisons d’une page lors d’une indexation.