Le robots.txt d’un blog WordPress
On accuse souvent les tags et les catégories d’en être responsable, mais le risque est nettement plus large que cela. Mal géré, votre blog WordPress peut être un bouquet de “duplicate content” et vous pénaliser dans les résultats de Google, qui n’aime pas du tout qu’on lui serve du contenu copié.
Le duplicate content, c’est le fait d’avoir, sous deux urls différentes, le même contenu, ou un contenu très similaire.
N’étant pas dans les petits papiers de Matt Cutt, je ne pourrai pas vous dire si la barre est à 90%, 80% ou si elle est variable en fonction de critères secrets… mais le fait est là.
Interdire les urls non réécrites
Bien sûr vous avez une jolie structure de permaliens, bien optimisée. Mais si par hasard vous avez déjà attendu pour la mettre en place, il se peut que Google ait déjà indexé des pages avec la structure classique :
www.mondomaine.com/index.php?p=02
Un beau duplicate content tout frais…
La correction est simple :
Disallow: /*?*
Catégories, tags et archives dans le temps
C’est à la fois la force des blogs, et leur faiblesse : l’accès par de multiples sélections à des billets peut facilement provoquer du duplicate content, si le contenu de ces pages est trop similaire.
Partons donc du principe que vous utilisez la balise < ! ‐‐ more qui permet de couper le texte d’un article pour n’afficher que la première partie dans la page d’index, les catégories, les archives, et même le flux.
Or, option plus sophistiquée, que vous utilisez à certains endroits cette balise, à d’autre the_excerpt qui permet d’afficher un bloc de texte spécialement écrit, un résumé.
Malgré tout, si certaines de vos catégories ou de vos tags se recoupent trop, vous risquez le duplicate content.
De la même façon, vos pages d’archives risquent d’être en duplicate content, en tout cas pour les derniers articles par rapport à la page d’index.
On peut utiliser le nofollow, mais le plus simple est d’interdire ces pages.
Là, la syntaxe va dépendre de votre structure de permaliens. Par rapport à la configuration standard :
Pour les catégories :
Disallow: /category/
Pour les tags :
Disallow: /tag/
Pour les archives calendaires :
Disallow: /20*
Uniquement si votre structure de permaliens ne commence pas par l’année… c’est une des options de permaliens par défaut de WordPress.
Je ne l’aime pas car elle a deux inconvénients :
- pas possible d’interdire les archives calendaires dans le robots.txt
- création de trop de dossiers virtuels
- si on fait attention au contenu de ses urls, les mots clés sont trop loin…
Interdire la pagination
Là c’est du luxe, car normalement la pagination se fait uniquement sur les pages avec beaucoup d’articles, donc celles que nous avons précédemment interdites.
Mais on peut toujours, par sécurité, ajouter ceci :
Disallow: /page*
Mettre le sitemap à niveau
Reste à donner à Google un sitemap cohérent par rapport au robots.txt, pour ne pas générer des erreurs inutiles. Un plugin comme Google XML Sitemap, qui permet de choisir les éléments à inclure fait parfaitement l’affaire.
Mais je croyais que les tags c’est bon pour le référencement ?
Je ne pense pas. Les tags sont utiles pour la navigation dans un site, comme les catégories, d’ailleurs. Ils permettent au lecteur de trouver une information complémentaire. Mais quand on a un blog, correctement crawlé par les robots, correctement pingué, et bien construit, avec la possibilité de rappeler des articles voisins… l’essentiel est d’indexer les pages avec le contenu original : les articles, la page d’accueil et les pages statiques. En tout cas au début.
Quand votre blog aura trois ou quatre ans et un millier de posts, là vous pourrez facilement faire indexer catégories et tags, sans risque de duplicate content. En attendant, un blog est généralement rapidement indexé (les articles de celui ci apparaissent sur Google en un quart d’heure en moyenne) et supprimer le duplicate content permet d’augmenter la pertinence de chaque page… et donc son positionnement.
Cet article est pour moi cruellement d’actualité :)
Autre chose : je viens de remarquer que les url de votre blog comportent des virgules. C’est une technique de référencement ou une excentricité ?
Disons qu’il a été fait après notre discussion.
Pour les urls, je dirais un peu des deux. Ca me permet de mettre la date du post sans gérer de sous dossiers virtuels (et donc pouvoir interdire l’indexation des archives), et sans avoir des – en excès, je trouve que c’est visuellement plus agréable, et par ailleurs MSN ne prend pas en compte les urls à plus de trois –
On peut aussi utiliser des +
Les % sont en théorie possible, mais comme ils sont utilisés pour remplacer les espaces (si si, il y a des gens qui mettent des espaces dans leurs urls, par exemple pour charger un fichier), j’éviterais pour risques de “recombinaison bizarre”, comme pour le *
En fait je suis plutôt partisane des urls simples, relativement peu chargées en mots clés, et facilement lisibles par l’utilisateur. Ce n’est pas obligatoirement la pensée dominante. Dans une optique long terme, je suis certaine que les urls trop optimisées auront des problèmes un jour ou l’autre, Google abandonnant peu à peu tout ce qui est trop facilement manipulable par les webmasters.
Au mieux cela veut dire perte d’efficacité, au pire, nécessité pour des gros sites de changer leur structure d’url pour revenir au top.
Mais on en n’est pas là.
C’est plus le cruellement que d’actualité qui était mis en avant.
Pour les virgules, je n’imaginais pas qu’elles puissent s’intégrer à une url.
Concernant les tags, je pense que si c’est bon pour la navigation du visiteur, c’est automatiquement bon pour le référencement, après il ne faut pas en abuser et en mettre 50 par pages.
salut , pour ce qui est des tags je suis tout à fait d’ accord avec toi ils ne faut les référencer uniquement quand le nombre d’ articles et suffisamment important et leurs choix doit être mûrement réfléchis sinon ça peut devenir la catastrophue .
Salut,
Je viens de passer du temps sur ton site à lire tes différents articles, je vais te faire grimper ton nombre de pages vues par visiteur et le temps passé lol
Avec un blog perso et donc varié, on ne cherche pas trop à se positionner sur tel ou tel mot clé, il n’est pas non plus évident de faire rester le visiteur sur le site du au peu d’homogénéité entre les différents articles, j’en parle sur un article “Contenant vs Contenu”, il est donc pas évident de mettre en oeuvre une stratégie de référencement, même l’inscription dans les annuaires est délicate.
On a tout de même envie d’avoir des visiteurs, d’être référencé, même de manière assez hasardeuse, je suis assez doué dans les boulettes que google ne doit pas trop apprécier, page 404, duplicate content, titre en double et je dois en oublier ! surtout que là, j’ai entièrement refait le blog sans y migrer le contenu précédent … donc dans mon GWT ça y va les erreurs :D
Bref, je suis bavard mais tout ça pour dire que je vais commencer par mettre ce fichier robot.txt en place de manière plus efficace en suivant tes conseils, voir pour une balise Description de ma page d’accueil car je viens de m’apercevoir que google affichait mon footer !!! le plugin seo truc me sera donc peut être nécessaire ..
lol, bon j’arrete là je suis entrain de publier un commentaire bien plus long que chcun de mes articles :D
A plus Yann
Côté contenant j’aime bien ton site, il est original, et il attrape l’œil. En revanche il est un peu difficile à lire, le blanc sur fond noir ça clashe énormément, essaie plutôt avec un blanc et un noir à 97% ou 98%.
Le centrage des textes aussi est très gênant, et “je serais toi”, j’aérerais un peu plus :)
Le mélange photo / web c’est un grand classique ^^ depuis que la photo est devenue numérique. Mais bon je ne peux pas être contre :) :)
Après pour développer un référencement, ça prend du temps. Cela dit j’ai un blog “secret”, vraiment perso, et non référencé… qui fait presque autant de visites que celui ci :)
Le thème c’est Constructor, il offre pas mal de possibilité et une administration impressionnante, je pense qu’il va y avoir une mise à jour suite à la 2.9 et la gestion des images.
Merci pour la couleur du texte, je vais voir ça, je ne suis pas aidé je suis sur un écran TV et j’ai donc un affichage très moyen, pas évident de s’apercevoir de ça, quant à son centrage, le retrait en début de paragraphe, j’ai remarqué ça aussi, ça me perturbe aussi, une autre chose à voir.
Sinon j’ai réglé mon sitemap et créé mon robot.txt qui donne ça
User-agent: *
Disallow: /stats/
Disallow: /category/
Disallow: /tag/
Disallow: /jenexistepas/ (ça c’est un lien vers ma page 404 à la con)
Disallow: /wp-content/plugins/ (niveau des images je ne sais pas si je dois mettre tout wp-content ou pas !)
Disallow: /wp-admin/
Disallow: /*?*
Déterrage de post ;-) Je débute avec WordPress et comme par hasard j’arrive toujours sur ton site!
Penses-tu que le plugin All in One SEO puisse régler tous ces problèmes aussi efficacement que ta technique?
Pour info, voici ce qu’il affiche sur les pages TAGS ou catégories:
L’avantage qui me vient à l’esprit c’est qu’il reste “follow” contrairement au Disallow pur et simple de robots.txt
Bon allez, je vais continuer à faire exploser ta moyenne de “Temps moyen passé sur le site”… à bientôt
ps: ok, le code a été filtré, pour résumer, All in one SEO met une balise meta robots noindex, follow sur les pages tags ou catégories
Oui AIO SEO permet de le faire sans problème :)
Il y a quand même une différence avec les robots txt,c’est que ceux ci permettent de gérer plus “finement”. Mais bon, on ne va pas chipoter :)
Bonjour,
J’ai mis mon site en ligne mais je ne l’ai pas encore référencé. Pour l’instant je le construit. Alors je ne pense pas qu’il apparaisse sur Internet.
Ce n’est peut-être pas le bon endroit pour poster ce message, mais cela fait un moment que je vous lis et comme vous vous y connaissez je ne vois pas d’autres solutions, car j’ai cherché des jours sur Internent et je ne trouve pas la solution.
Voici mon problème :
J’ai téléchargé Google XLM Sitemaps en le téléchargeant sur mon FTP et en créant un dossier pour cela que j’ai intitulé du même nom.
Google XLM Sitemaps apparaît bien dans les plugins sur WordPress et je l’ai donc activé.
Mais quand je vais dans “Réglages” et que je clique sur le nom de ce plugin cela me répond “vous n’avez pas l’autorisation pour accéder à cette page”.
Je ne sais plus ce que je dois faire et je suis vraiment perdue.
De plus, je suis une grande débutante et je ne comprends pas bien le langage informatique.
Il me faudrait une aide pas à pas en me disant bien où je dois aller “wordpress”, “FTP”, “Hébergeur” et en me disant où je dois cliquer et ce que je dois faire. Bien sûr si cela vous est possible.
Mon hébergeur est PlanetHoster.
Je suis allée sur bien des sites mais je ne comprends rien à ce qui est dit.
En vous remerciant par avance pour l’aide apportée.
Cordialement,
Bonsoir, il est difficile de vous dépanner rapidement pour ce type de problème, qui peut être lié à plein de choses.
A part très rapidement vérifier que vous n’avez pas un dossier à l’intérieur du dossier plugin (bref un niveau de répertoire de trop)
Sinon, il vaut mieux aller sur wordpress-fr.net : il y a toute une communauté, prête à prendre le relais (et à laquelle je participe)
Bonjour,
Merci beaucoup de votre réponse rapide, c’est très gentil.
Je vais suivre vos conseils.
Par contre je ne sais pas comment on vérifie que l’on a un dossier de trop et d’ailleurs je pense que je ne saurais pas lequel.
Cordialement