Related Post

Spread the word

Digg this post

Bookmark to delicious

Stumble the post

Add to your technorati favourite

Subscribes to this post

14 users responded to this post

MagicYoyo said in février 23rd, 2009 at 3:39     

Salut Marie-Aude;

Il y a plein de petits enseignements dans ton étude. Merci de partager

J’ai juste tiqué sur une phrase que j’ai du mal à cerner :
« En revanche, le linking n’est pas un critère de positionnement.  »
Si tu peux développer.

a+

Marie-Aude said in février 23rd, 2009 at 3:59     

Hello Magic :)

Ce que je veux dire par là, c’est que le nombre de liens en soit, n’est pas le critère prédominant.
C’est ce que je conclus de l’indexation / positionnement de mes pages de catégories en duplicate content : celles qui venaient des liens du blog avaient plus de liens internes que celles qui venaient du site, mais elles étaient moins bien positionnées. (et dans les deux cas, quasiment pas de liens externes)

Ce n’est pas nouveau d’ailleurs :)

François le jardinier said in février 23rd, 2009 at 8:28     

Moi j’ai rien compris mais ça ne fait rien je te donne le bonjour quand même et te souhaite de retrouver tous tes internautes perdus dans la nature ou passés à la concurrence !-))
La bise de St Etienne
F

Marie-Aude said in février 23rd, 2009 at 8:46     

Merci pour le passage et pour le soutien :) Bise retransmise :)

Keroin said in février 24th, 2009 at 6:49     

Hello Marie-Aude ;)
Effectivement le Disallow dans le robots.txt c’est la boulette de chez boulette^^
Merci beaucoup pour cette analyse des « suites » qui est vraiment très intéressante ;)

Juste concernant ce passage : « Or j’ai écrit quelques articles dans le blog, qui ont été immédiatement indexés.
C’est une confirmation : Google ne se base pas en priorité sur le sitemap pour crawler les pages d’un site et découvrir les nouveautés. »
Tu es sûr que cette indexation rapide des nouveaux articles ne provient pas du ping automatique intégré dans WordPress ? Moi j’aurais cherché de ce coté là pour trouver une explication à ce phénomène.
Keep on the good work ;)

kaliseo said in février 24th, 2009 at 9:31     

En ce qui concerne les liens dans GWT, on ne sait pas réellement ce que Google fournit ou pas. De la a dire qu’ils n’ont aucune importance, il y a des nuances. certes ca ne fait pas tout, mais un linking bien construit reste garant d’une réelle popularité.

Les données que l’on trouve dans GWT ne sont effectivement pas a jour en temps réel, mais qui nous dit qu’elles ne le sont pas dans l’index ? Tout comme la Google Toolbar, on sait aujourd’hui qu’elle ne fourni un pagerank qui est calculé avec beaucoup de retard et qui est un indicateur peu fiable puisque calculé tous les 3 mois environ. Par contre, le PageRank utilisé par google, lui, semble bien calculé en temps réel dans l’index.

Marie-Aude said in février 24th, 2009 at 9:41     

@Keroin la boulette je l’ai faite une fois, je préfère la faire sur un de mes sites que chez un client ;)
Pour les articles de blog, tu as en principe raison, mais j’ai remarqué que des modifs sur des pages du site proprement dite se propageaient en 24 heures, alors que le sitemap n’avait pas été consulté. Je me suis mis ça sous le coude pour la prochaine création de page, voir si ça va aussi vite.

@kaliseo je n’ai pas dit que les liens indiqués dans GWT n’avaient aucune importance, c’est quand même un très bon indicateur, mais qu’il y avait un décalage par rapport à la réalité. Quand j’en ai plus dans l’index que dans GWT par exemple, ce qui est le cas du premier jour (0 dans GWT) ou des fichiers .kml qui sont indiqués comme non indexés, alors qu’ils le sont.
En fait tu as un « forfait » GWT, un « forfait » avec consommation détaillée ;) index, et les deux ne se recoupent pas.

Les liens sont effectivement indiqués avec un retard important. Donc il vaut mieux les gérer autrement, si on veut les suivre finement.

Je n’ai pas dit non plus qu’un sitemap ne sert à rien. Mais qu’il ne sert pas à grand chose pour un site avec un maillage interne correct. Manifestement, quand Google a le choix entre explorer lui même et prendre les infos d’un sitemap, il choisit la première solution. Mais ça reste un outil valide pour les sites avec des difficultés structurelles de linking, ou pour d’autres infos dans le sitemap, comme la priorité ou la date de dernière mise à jour.

k|torz said in février 24th, 2009 at 7:32     

Bonjour,
article très instructif,
merci et bonne continuation.

Thomas SOUDAZ said in février 24th, 2009 at 7:40     

la grande majorité des donnée fournies par Google (et surtout le « site: ») sont des approximations grossières faites avec un impératif : limiter le temps machine nécessaire a leur calcul; Google ne ment pas et n’est pas pudique Google cherche à économiser des $, Et plus le nombre de pages indexées d’un site est grand plus grosses seront les approximations en volume.

Marie-Aude said in février 24th, 2009 at 8:33     

Bonsoir Thomas,

je ne pense pas avoir un très gros site :)

Et surtout je ne pense pas que les données soient des approximations grossières. Je suis en train de regarder de façon assez précise la réalité de la commande site, en regardant pour une page, donnée en index complémentaire ou pas si elle ressort ou pas sur une requête [en résultat primaire, bien sûr], et surtout ce qui se passe quand Google renvoie une de mes pages dans les résultats complémentaires, et cela concorde suffisamment bien pour l’instant.
De plus, ces informations (la commande site: ) sont mises à jour quotidiennement.

Il y a déjà d’autres domaines dans lesquels Google a officiellement décidé de faire preuve de « pudeur » ou d’approximation grossière (après tout c’est une question de style), et notamment dans celui du PR affiché.

Je pense qu’une partie des informations est volontairement bridée, ou donnée avec retard, pas pour des raisons de limite de calcul – puisque les calculs sont déjà faits – mais simplement pour éviter de donner trop d’informations qui permettraient de percer plus facilement les résultats de l’algo, et notamment en voyant les résultats de tests immédiatement dans ses outils.

En tout cas, quelle qu’en soit la raison, le résultat est le même : il n’y a pas de moyen d’avoir facilement et rapidement des informations à jour sur le classement d’un site.

LebossTom said in février 25th, 2009 at 2:49     

hmm… oui « aproximations grossières » est un peu fort surtout qu’en dessous de quelques dizaines de pages Google est presque précis, enfin il y a quand même des écarts notables quand on intérroge différents data center…

Sans compter le coup du chiffre revu à la baisse quand on se ballade sur la pagination (ça le fait presque à tous les coups sur les sites de 50+ pages :D)

Sur des gros sites les commandes site: (avec ou sans le &filter=0) sont imprécises au possible et peuvent varier fortement dans le temps sans pour autant qu’il n’y ait de nouvelles pages.

Pour appuyer l’argument de l’approximation, je prendrai l’exemple de Matt sucks ((c) magicyoyo) qui expliquait que l’algo de détection des google bomb était lancé à plusieurs mois d’intervalle car cela nécessitait de grosses ressources et beaucoup de temps machine pour l’exécuter sur l’intégralité du web.

Typiquement j’imagine que sortir un mapping régulier des liens externes des GWT (ce qui sont mis à jour toutes les x semaines) de tous les sites nécessite également de grosses ressources…

Pour nous c’est complètement virtuel mais ça ne m’étonnerait pas que Google arrive à chiffrer le coût en $ de ce genre de requêtes :D

Marie-Aude said in février 25th, 2009 at 4:05     

Le chiffre revu à la baisse c’est la différence entre résultats complémentaires et résultats « primaires » non ? Puisqu’on ne peut connaitre les résultats primaires qu’en arrivant à la fin de la pagination, justement.

C’est tout à fait exact que les liens dans GWT sont mis à jour avec beaucoup de retard. Ça ne veut pas dire pour autant que le mapping ne soit pas mis à jour régulièrement – ou alors c’est en complète contradiction avec « le PR est mis à jour quasiment en temps réel »

Mais on se fait peut être des illusions sur le PR… en fait il n’est plus mis à jour ;)

LebossTom said in février 26th, 2009 at 3:33     

le paramètre filter=0 permet en théorie d’afficher la totalité des pages indexées (complémentaires / secondaire / primaire et quaternaire :p), c’est le paramètre que rajoute google quand on clique sur « Afficher tous les résultats ».

Quand tu arrives au bout de la pagination que tu cliques sur afficher tous les résultats tu retombes sur le chiffre du site: de la première page toi ? ;)

Google a une contrainte très forte afficher une réponse en moins d’une seconde… alors donner un chiffre précis à un « site: » crois moi il s’en moque ;).

Quant à ce qui est du calcul du PR en quasi temps réel, je ne suis pas dans la confidence –

j’ai bien une théorie mais elle va pas te plaire : là encore je crois qu’il doit y avoir une « estimation », peut-être moins grossière on est pas sur des requêtes de webmaster useless pour le commun des mortels comme le « site: ».

Marie-Aude said in février 26th, 2009 at 5:05     

Mes sites sont de petits sites :) Mezgarne a 587 urls dans le sitemap, dont une centaine de fichiers kml. Comme tu le dis, je pense que ce genre de sites est traité de façon plus exacte que les énormes usines qui génèrent des dizaines de milliers de pages.

En ce qui concerne le PR, pour être honnête, je m’en fiche totalement. Je ne suis pas une obsédée de la petite barre verte, mais du positionnement et du trafic qualifié :)

Sinon pour répondre à ta question, oui j’ai bien le même nombre de pages en cliquant sur « afficher tous les résultats ».

En revanche en allant « au bout » de ces résultats, il y en a beaucoup moins qu’annoncé. Mais cela n’est pas nouveau, Jean Véronis avait déjà fait un billet sur la disparition mystérieuse de ces pages

Leave Your Comments Below