Géolocalisation, TLD, serveur et Google

Pour Google, l’extension géographique est plus importante que l’ip du serveur pour géolocaliser un site. Cela ne veut pas dire, au contraire que cela soit la seule méthode valable de géolocalisation d’un site. Il ne faut pas faire dire à Google Guy plus que ce qu’il dit !


La philosophie de coZop

Cozop et le duplicate content, suite. Réponse sur leur blog, à laquelle je réponds ici : la philosophie est une chose, mais techniquement, cela ne change rien aux risques et aux conséquences du duplicate content.


Les documents sur over-blog

Petite découverte amusante cet après midi au hasard d’une recherche… over-blog a laissé indexer par Google le répertoire où toutes les pièces jointes des blogs (en tout cas pdf et doc) sont stockées. Environ 18.500 documents sont ainsi disponibles en accès direct, et sans possibilité de remonter au blog d’origine (il y a manifestement des règles d’url rewriting quand on appelle le doc à partir du blog, mais quand on passe directement par le répertoire de données, on a une toute autre url. 

Ca nous fait un joli paquet de duplicate content.
Ca fait aussi une source assez intéressante de documents. Il y a beaucoup de choses intéressantes chez overblog. Malheureusement, si l’auteur n’a pas pris le soin de signer son document, il est introuvable. 

Je reste quand même surprise de cette bourde. Ce répertoire aurait dû être interdit en accès direct. 

La pénalité aléatoire, quand on cherche on trouve…

J’ai trouvé une analyse très intéressante d’une référenceuse, qui parle des pénalités Keybox et Feedbox. 

D’une certaine façon, la pénalité Feedbox ne serait qu’un avatar spécifique du duplicate content, frappant à la fois les sites d’agrégateurs, et les sites qui se laissent agréger.
Les agrégateurs de flux sont une bonne chose. Ils permettent d’indexer des pages profondes de votre site (au moins de façon temporaire), ils permettent aussi de multiplier vos ancres, et enfin de vous attirer du trafic.
Mais, selon la façon dont ils sont construits, ils peuvent aussi être un élevage de duplicate content en batterie. 

Deux types de sites sont à proscrire : 

  1. ceux qui reprennent votre flux sous leur propre adresse, ou en frame, dupliquant ainsi tout votre contenu, et vous privant de trafic
  2. ceux qui consacre une page dédiée à votre flux, laquelle page sera donc une copie de la page d’accueil de votre blog

La Keybox frapperait les sites qui suroptimisent sur des mots clés précis. Ce serait donc la position uniquement sur cette combinaison où le site se verrait pénalisé, et pas sur toutes les requêtes, à la différence d’une sandbox, ou d’une pénalité. 

Cela correspond ) ce que j’ai pu constater sur quelques sites que je connais bien, où la pénalisation a eu lieu de façon extrêmement sélective, sur quelques requêtes.
Or ces combinaisons de mots correspondaient à de nombreuses ancres externes… mais étaient assez rares à l’intérieur du site.

Lire la suite

Le robots.txt d’un blog WordPress

On accuse souvent les tags et les catégories d’en être responsable, mais le risque est nettement plus large que cela. Mal géré, votre blog WordPress peut être un bouquet de « duplicate content » et vous pénaliser dans les résultats de Google, qui n’aime pas du tout qu’on lui serve du contenu copié. 

Le duplicate content, c’est le fait d’avoir, sous deux urls différentes, le même contenu, ou un contenu très similaire.
N’étant pas dans les petits papiers de Matt Cutt, je ne pourrai pas vous dire si la barre est à 90%, 80% ou si elle est variable en fonction de critères secrets… mais le fait est là. 

Interdire les urls non réécrites

Bien sûr vous avez une jolie structure de permaliens, bien optimisée. Mais si par hasard vous avez déjà attendu pour la mettre en place, il se peut que Google ait déjà indexé des pages avec la structure classique :
www.mondomaine.com/index.php?p=02
Un beau duplicate content tout frais…
Lire la suite