Google -bot, -sitemap, -index et -webmastertools

Marie-Aude

J'ai fait de la compta, de la finance, du juridique, j'ai été chef de projet SAP, j'ai fait de la photo, des voyages. Depuis 2007, je fais avec amour des sites webs pour les utilisateurs, qui se référencent bien et je vous aide à acquérir du trafic pertinent.

Vous aimerez aussi...

15 réponses

  1. Marie-Aude dit :

    Hello Magic :)

    Ce que je veux dire par là, c’est que le nombre de liens en soit, n’est pas le critère prédominant.
    C’est ce que je conclus de l’indexation / positionnement de mes pages de catégories en duplicate content : celles qui venaient des liens du blog avaient plus de liens internes que celles qui venaient du site, mais elles étaient moins bien positionnées. (et dans les deux cas, quasiment pas de liens externes)

    Ce n’est pas nouveau d’ailleurs :)

  2. MagicYoyo dit :

    Salut Marie-Aude;

    Il y a plein de petits enseignements dans ton étude. Merci de partager

    J’ai juste tiqué sur une phrase que j’ai du mal à cerner :
    “En revanche, le linking n’est pas un critère de positionnement. ”
    Si tu peux développer.

    a+

  3. Marie-Aude dit :

    Merci pour le passage et pour le soutien :) Bise retransmise :)

  4. François le jardinier dit :

    Moi j’ai rien compris mais ça ne fait rien je te donne le bonjour quand même et te souhaite de retrouver tous tes internautes perdus dans la nature ou passés à la concurrence !-))
    La bise de St Etienne
    F

  5. Keroin dit :

    Hello Marie-Aude ;)
    Effectivement le Disallow dans le robots.txt c’est la boulette de chez boulette^^
    Merci beaucoup pour cette analyse des “suites” qui est vraiment très intéressante ;)

    Juste concernant ce passage : “Or j’ai écrit quelques articles dans le blog, qui ont été immédiatement indexés.
    C’est une confirmation : Google ne se base pas en priorité sur le sitemap pour crawler les pages d’un site et découvrir les nouveautés.”
    Tu es sûr que cette indexation rapide des nouveaux articles ne provient pas du ping automatique intégré dans WordPress ? Moi j’aurais cherché de ce coté là pour trouver une explication à ce phénomène.
    Keep on the good work ;)

  6. Marie-Aude dit :

    @Keroin la boulette je l’ai faite une fois, je préfère la faire sur un de mes sites que chez un client ;)
    Pour les articles de blog, tu as en principe raison, mais j’ai remarqué que des modifs sur des pages du site proprement dite se propageaient en 24 heures, alors que le sitemap n’avait pas été consulté. Je me suis mis ça sous le coude pour la prochaine création de page, voir si ça va aussi vite.

    @kaliseo je n’ai pas dit que les liens indiqués dans GWT n’avaient aucune importance, c’est quand même un très bon indicateur, mais qu’il y avait un décalage par rapport à la réalité. Quand j’en ai plus dans l’index que dans GWT par exemple, ce qui est le cas du premier jour (0 dans GWT) ou des fichiers .kml qui sont indiqués comme non indexés, alors qu’ils le sont.
    En fait tu as un “forfait” GWT, un “forfait” avec consommation détaillée ;) index, et les deux ne se recoupent pas.

    Les liens sont effectivement indiqués avec un retard important. Donc il vaut mieux les gérer autrement, si on veut les suivre finement.

    Je n’ai pas dit non plus qu’un sitemap ne sert à rien. Mais qu’il ne sert pas à grand chose pour un site avec un maillage interne correct. Manifestement, quand Google a le choix entre explorer lui même et prendre les infos d’un sitemap, il choisit la première solution. Mais ça reste un outil valide pour les sites avec des difficultés structurelles de linking, ou pour d’autres infos dans le sitemap, comme la priorité ou la date de dernière mise à jour.

  7. kaliseo dit :

    En ce qui concerne les liens dans GWT, on ne sait pas réellement ce que Google fournit ou pas. De la a dire qu’ils n’ont aucune importance, il y a des nuances. certes ca ne fait pas tout, mais un linking bien construit reste garant d’une réelle popularité.

    Les données que l’on trouve dans GWT ne sont effectivement pas a jour en temps réel, mais qui nous dit qu’elles ne le sont pas dans l’index ? Tout comme la Google Toolbar, on sait aujourd’hui qu’elle ne fourni un pagerank qui est calculé avec beaucoup de retard et qui est un indicateur peu fiable puisque calculé tous les 3 mois environ. Par contre, le PageRank utilisé par google, lui, semble bien calculé en temps réel dans l’index.

  8. k|torz dit :

    Bonjour,
    article très instructif,
    merci et bonne continuation.

  9. Marie-Aude dit :

    Bonsoir Thomas,

    je ne pense pas avoir un très gros site :)

    Et surtout je ne pense pas que les données soient des approximations grossières. Je suis en train de regarder de façon assez précise la réalité de la commande site, en regardant pour une page, donnée en index complémentaire ou pas si elle ressort ou pas sur une requête [en résultat primaire, bien sûr], et surtout ce qui se passe quand Google renvoie une de mes pages dans les résultats complémentaires, et cela concorde suffisamment bien pour l’instant.
    De plus, ces informations (la commande site: ) sont mises à jour quotidiennement.

    Il y a déjà d’autres domaines dans lesquels Google a officiellement décidé de faire preuve de “pudeur” ou d’approximation grossière (après tout c’est une question de style), et notamment dans celui du PR affiché.

    Je pense qu’une partie des informations est volontairement bridée, ou donnée avec retard, pas pour des raisons de limite de calcul – puisque les calculs sont déjà faits – mais simplement pour éviter de donner trop d’informations qui permettraient de percer plus facilement les résultats de l’algo, et notamment en voyant les résultats de tests immédiatement dans ses outils.

    En tout cas, quelle qu’en soit la raison, le résultat est le même : il n’y a pas de moyen d’avoir facilement et rapidement des informations à jour sur le classement d’un site.

  10. Thomas SOUDAZ dit :

    la grande majorité des donnée fournies par Google (et surtout le “site:”) sont des approximations grossières faites avec un impératif : limiter le temps machine nécessaire a leur calcul; Google ne ment pas et n’est pas pudique Google cherche à économiser des $, Et plus le nombre de pages indexées d’un site est grand plus grosses seront les approximations en volume.

  11. LebossTom dit :

    hmm… oui “aproximations grossières” est un peu fort surtout qu’en dessous de quelques dizaines de pages Google est presque précis, enfin il y a quand même des écarts notables quand on intérroge différents data center…

    Sans compter le coup du chiffre revu à la baisse quand on se ballade sur la pagination (ça le fait presque à tous les coups sur les sites de 50+ pages :D)

    Sur des gros sites les commandes site: (avec ou sans le &filter=0) sont imprécises au possible et peuvent varier fortement dans le temps sans pour autant qu’il n’y ait de nouvelles pages.

    Pour appuyer l’argument de l’approximation, je prendrai l’exemple de Matt sucks ((c) magicyoyo) qui expliquait que l’algo de détection des google bomb était lancé à plusieurs mois d’intervalle car cela nécessitait de grosses ressources et beaucoup de temps machine pour l’exécuter sur l’intégralité du web.

    Typiquement j’imagine que sortir un mapping régulier des liens externes des GWT (ce qui sont mis à jour toutes les x semaines) de tous les sites nécessite également de grosses ressources…

    Pour nous c’est complètement virtuel mais ça ne m’étonnerait pas que Google arrive à chiffrer le coût en $ de ce genre de requêtes :D

  12. Marie-Aude dit :

    Le chiffre revu à la baisse c’est la différence entre résultats complémentaires et résultats “primaires” non ? Puisqu’on ne peut connaitre les résultats primaires qu’en arrivant à la fin de la pagination, justement.

    C’est tout à fait exact que les liens dans GWT sont mis à jour avec beaucoup de retard. Ça ne veut pas dire pour autant que le mapping ne soit pas mis à jour régulièrement – ou alors c’est en complète contradiction avec “le PR est mis à jour quasiment en temps réel”

    Mais on se fait peut être des illusions sur le PR… en fait il n’est plus mis à jour ;)

  13. LebossTom dit :

    le paramètre filter=0 permet en théorie d’afficher la totalité des pages indexées (complémentaires / secondaire / primaire et quaternaire :p), c’est le paramètre que rajoute google quand on clique sur “Afficher tous les résultats”.

    Quand tu arrives au bout de la pagination que tu cliques sur afficher tous les résultats tu retombes sur le chiffre du site: de la première page toi ? ;)

    Google a une contrainte très forte afficher une réponse en moins d’une seconde… alors donner un chiffre précis à un “site:” crois moi il s’en moque ;).

    Quant à ce qui est du calcul du PR en quasi temps réel, je ne suis pas dans la confidence –

    j’ai bien une théorie mais elle va pas te plaire : là encore je crois qu’il doit y avoir une “estimation”, peut-être moins grossière on est pas sur des requêtes de webmaster useless pour le commun des mortels comme le “site:”.

  14. Marie-Aude dit :

    Mes sites sont de petits sites :) Mezgarne a 587 urls dans le sitemap, dont une centaine de fichiers kml. Comme tu le dis, je pense que ce genre de sites est traité de façon plus exacte que les énormes usines qui génèrent des dizaines de milliers de pages.

    En ce qui concerne le PR, pour être honnête, je m’en fiche totalement. Je ne suis pas une obsédée de la petite barre verte, mais du positionnement et du trafic qualifié :)

    Sinon pour répondre à ta question, oui j’ai bien le même nombre de pages en cliquant sur “afficher tous les résultats”.

    En revanche en allant “au bout” de ces résultats, il y en a beaucoup moins qu’annoncé. Mais cela n’est pas nouveau, Jean Véronis avait déjà fait un billet sur la disparition mystérieuse de ces pages

  15. Reso dit :

    Bonjour,

    Je découvre votre article qui est fort intéressant. Mais où je n’ai pas compris, c’est les metas données dupliqués.

    On sait tous que google sanctionne ces mets en double. Si vous avez un meta en double quelque soit l’endroit, votre site chute comme une feuille de papiers. Pour le référencement vous le savez que le première facteur que google prend en compte c’est la structure du site et dans le cas où vous avez la malheur d’avoir des erreurs du type meta en double votre site chute. Je dirais que ces metas en doubles sont plus dangereux que les erreurs 404.

    Le sitemap est très utile pour vous pour voir le pourcentage de nombre de page dans l’index de google. Si vous êtes à 100% de page en indexaient de votre sitemap, alors vous n’avez pas de problème pour google et votre site est très bien référencer.

    Dites moi si j’ai raison.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *