On accuse souvent les tags et les catégories d’en être responsable, mais le risque est nettement plus large que cela. Mal géré, votre blog WordPress peut être un bouquet de “duplicate content” et vous pénaliser dans les résultats de Google, qui n’aime pas du tout qu’on lui serve du contenu copié.
Le duplicate content, c’est le fait d’avoir, sous deux urls différentes, le même contenu, ou un contenu très similaire.
N’étant pas dans les petits papiers de Matt Cutt, je ne pourrai pas vous dire si la barre est à 90%, 80% ou si elle est variable en fonction de critères secrets… mais le fait est là.
Interdire les urls non réécrites
Bien sûr vous avez une jolie structure de permaliens, bien optimisée. Mais si par hasard vous avez déjà attendu pour la mettre en place, il se peut que Google ait déjà indexé des pages avec la structure classique :
www.mondomaine.com/index.php?p=02
Un beau duplicate content tout frais…
La correction est simple :
Disallow: /*?*
Catégories, tags et archives dans le temps
C’est à la fois la force des blogs, et leur faiblesse : l’accès par de multiples sélections à des billets peut facilement provoquer du duplicate content, si le contenu de ces pages est trop similaire.
Partons donc du principe que vous utilisez la balise < ! ‐‐ more qui permet de couper le texte d'un article pour n'afficher que la première partie dans la page d'index, les catégories, les archives, et même le flux.
Or, option plus sophistiquée, que vous utilisez à certains endroits cette balise, à d'autre the_excerpt qui permet d'afficher un bloc de texte spécialement écrit, un résumé.
Malgré tout, si certaines de vos catégories ou de vos tags se recoupent trop, vous risquez le duplicate content.
De la même façon, vos pages d'archives risquent d'être en duplicate content, en tout cas pour les derniers articles par rapport à la page d'index.
On peut utiliser le nofollow, mais le plus simple est d'interdire ces pages.
Là, la syntaxe va dépendre de votre structure de permaliens. Par rapport à la configuration standard :
Pour les catégories :
Disallow: /category/
Pour les tags :
Disallow: /tag/
Pour les archives calendaires :
Disallow: /20*
Uniquement si votre structure de permaliens ne commence pas par l’année… c’est une des options de permaliens par défaut de WordPress.
Je ne l’aime pas car elle a deux inconvénients :
- pas possible d’interdire les archives calendaires dans le robots.txt
- création de trop de dossiers virtuels
- si on fait attention au contenu de ses urls, les mots clés sont trop loin…
Interdire la pagination
Là c’est du luxe, car normalement la pagination se fait uniquement sur les pages avec beaucoup d’articles, donc celles que nous avons précédemment interdites.
Mais on peut toujours, par sécurité, ajouter ceci :
Disallow: /page*
Mettre le sitemap à niveau
Reste à donner à Google un sitemap cohérent par rapport au robots.txt, pour ne pas générer des erreurs inutiles. Un plugin comme Google XML Sitemap, qui permet de choisir les éléments à inclure fait parfaitement l’affaire.
Mais je croyais que les tags c’est bon pour le référencement ?
Je ne pense pas. Les tags sont utiles pour la navigation dans un site, comme les catégories, d’ailleurs. Ils permettent au lecteur de trouver une information complémentaire. Mais quand on a un blog, correctement crawlé par les robots, correctement pingué, et bien construit, avec la possibilité de rappeler des articles voisins… l’essentiel est d’indexer les pages avec le contenu original : les articles, la page d’accueil et les pages statiques. En tout cas au début.
Quand votre blog aura trois ou quatre ans et un millier de posts, là vous pourrez facilement faire indexer catégories et tags, sans risque de duplicate content. En attendant, un blog est généralement rapidement indexé (les articles de celui ci apparaissent sur Google en un quart d’heure en moyenne) et supprimer le duplicate content permet d’augmenter la pertinence de chaque page… et donc son positionnement.

























Cet article est pour moi cruellement d’actualité :)