Madmoizelle.com : les questions à se poser ?

Si tu y as échappé, c’est que tu ne t’intéresses ni au SEO, ni aux updates de Google, ni aux blogs de filles, ni aux portails pour les filles et donc pas trop à Madmoizelle.com (moi non plus, je ne suis pas dans la tranche d’âge), et que tu n’as personne dans ton entourage qui s’y intéresse.

Et dans ce cas-là, peux-tu m’expliquer ce que tu fais sur mon blog ? Tu cherches des pierres de lune pour faire de la méditation transcendantale ?

Bon, revenons donc à Madmoizelle.com, portail francophone pour quilles émancipées et jolie réussite jusqu’à ce fatidique 8 janvier 2016 où, en même temps que Google déployait un algorithme orienté vers la qualité, leur visibilité dans les résultats du même Google chuta drastiquement, pour ne pas dire catastrophiquement.

A tel point que Fabrice porte le débat sur la place publique, avec beaucoup plus d’intelligence qu’un certain Gabriel Dabi-​Schwebel de 1m30 en son temps, sur le thème « je ne comprends pas » et en demandant une participation accrue aux lecteurs (j’ai même cru voir une incitation au clic …. )

La première constatation, et ce n’est pas rassurant, c’est que dès qu’on met un débat sur la place publique, le niveau vole bas. Ici, il ne s’agit pas de yakafokon politiques, genre les étrangers tous dénaturalisés, mais quand même, quand on lit ce commentaire on a plutôt envie de rire :

Alors je n’ai pas tout compris mais un ami informaticien m’a dit ça :
Pour les aider il faut :
 – se créer un coupe sur leur wordpress
 – retrouver l’article
 – tomber sur un lien « vous n’avez pas (encore) la possibilité de répondre à ce sujet »
Il faudrait :
 – leur balise HEAD contient des DIV, ce qui casse leur header
 – ils devraient utiliser des sitemaps
Voilà, si quelqu’un à la rédac est capable de traduire ça ! Moi je rend les armes

C’est d’autant plus super utile que …

  • s’il y a effectivement des div dans la section head, ils ne contiennent que des scripts, même si c’est moche ça ne change rien, et honnêtement, depuis quand un site non-conforme W3C est-il pénalisé ?
  • en regardant la balise head on voit qu’ils utilisent Yoast, donc on sait qu’il suffit de regarder dans le robots.txt pour trouver l’adresse du sitemap, qui sera bien évidemment un bon index de sitemap à la Yoast.

Ce qu’on sait et ce qu’on ne sait pas

La seconde constatation, c’est qu’aucun d’entre nous n’a suffisamment d’infos pour comprendre réellement ce qui se passe. Pour cela, il faut avoir le détail des stats, analyser quelles sont les pages désindexées, les autres, voir quel trafic elles faisaient avant, dans quelles pages d’archives elles se retrouvent, etc.

La comm de Fabrice, qu’elle soit sur WRI, sur le forum Google, ou sur le site, se réduit à l’essentiel :

  • une désindexation massive, les 3/4 des pages
  • une chute de fréquentation itou
  • même la homepage a disparu un moment
  • aucun avertissement / message dans GWT

Si on effectue la commande « site:madmoizelle.com » on voit un premier problème : 315.000 pages ! Cela inclut des sous-domaines comme le forum, le tumblr, par contre la même commande, limitée au www, renvoie 12.500 pages. Ce qui voudrait dire que le site avait, avant 50.000 pages d’indexées. Ce n’est pas le cas, en fait, la désindexation ne semble représenter que 35% des pages (c’est beaucoup, mais beaucoup moins aussi) si on regarde ce qui a été envoyé via les sitemaps.

Mais :

  • est-ce que la totalité du contenu des sitemaps était indexée avant ?
  • est-ce que la chute ne touche que le www ou aussi le forum et le tumblr ?
  • quels sont exactement les éléments désindexés ? (récence, visite, « thématiques »)
  • est-ce que la chute de fréquentation est réellement de 75% (ou de 25% et Fab inverse un peu les pourcentages, comme pour la désindexation, dans l’angoisse) ?
  • quel est le volume crawlé ?
  • y a-t-il eu des changements récents dans le site ? dans la configuration technique ?

Or tout ça est essentiel pour réellement comprendre ce qui se passe.

Ce que disent les sitemaps

Un site qui existe depuis dix ans, il y a du monde. Avec des articles publiés en 2006, comme celui-ci, dont on ne peux pas dire qu’il mériterait réellement de passer à la postérité…

A 33 sitemaps d’articles, à 500 urls par sitemap, ça nous fait 16.500 articles.

Ensuite il y a un sitemap de catégories, avec 223 catégories, ce qui nous fait 73 articles par catégories, soit moins d’un article par catégorie et par an

Et 3 sitemaps de tags, pour un total de 2.373 mots clés, ouuuucccchhhhhh , 7 articles en moyenne par mot clé.

Enfin, il y a un sitemap avec 275 pages.

En tout, donc 19.371 éléments soumis à indexation, en dix ans.

Trop de contenu tue l’indexation

Commençons par les pages, dont on se demande à quoi elles servent, tellement leur nom ressemble à des archives de tags (genre look-annees-80, look-annees-90, tenues-de-soiree, style-hippie,
style-rock) et dont certaines ont quand même un contenu super léger : http://www.madmoizelle.com/archives ou http://www.madmoizelle.com/votes, http://www.madmoizelle.com/telechargements

(Oui, je sais, c’est facile, je suis désolée, je suis comme ça, vous me mettez un listing de 500 pages sous les yeux, je vais tester au hasard le truc qui ne va pas… )

Et puis il y a cette page, qui parle de Lady Gaga, (qui devrait être un article) , ce qui me permet, en suivant les liens, d’arriver sur la catégorie culture consacrée à Lady Gaga, et découvrir qu’il y a aussi un tag Lady Gaga. Et là, ce tag, il a, quand à lui, une description… qui fait référence (sans la lier, d’ailleurs), à la catégorie culture sur Lady Gaga :

La déferlante Lady Gaga (de son vrai nom Stefani Germanotta) s’est abattue sur la pop music dès 2009 avec son premier titre « Just Dance ». Ce ne fut qu’un enchainement de succès par la suite avec « Poker Face », « Paparazzi », « Bad Romance » et tout récemment « Telephone » en duo avec Beyoncé ! Sur madmoiZelle.com, on est fan de la nouvelle Reine de la Pop comme la surnomment déjà certains ! Retrouve toutes ses news dans le Daily Gaga !

Comment voulez-vous vous y retrouver ?

(Petite remarque au passage, si tu veux décrire un terme, pour une page d’archive, tu ponds un peu plus que 80 mots… si tu veux, tu peux regarder un peu ce site, que je suis en train d’optimiser)

La foire aux mots-clés

Absence manifeste de « curation » des mots clés, comme par exemple, cette série :

  • 2005
  • 2006
  • 2007
  • … jusqu’à 2016

Est-ce que quelqu’un peut m’expliquer l’intérêt de faire des tags qui sont exactement identiques aux archives calendaires (au moins dans leur intitulé) quand on refuse justement d’indexer ces archives ?
Ou ça, mieux…

  • 3-suisses
  • les-3-suisses

Avec title et meta description identique pour un tag, soit, dans le cas de ce doublon :

3 Suisses – madmoiZelle.com – page 1 – madmoiZelle.com

et … le suspense est intenable :)

3 Suisses – madmoiZelle.com – page 1 – madmoiZelle.com

(ça c’est l’effet néfaste de la suppression des stop words, genre « le » ou « les »)

Bon, certes, c’est facile, et avec une équipe de rédaction nombreuse, il est très difficile de maîtriser la création de mots clés, mais dans ce cas, bon dieu, on n’indexe pas !!

Par ailleurs, même avec une équipe de création nombreuse, on peut donner des consignes claires, comme celle-ci :

On n’affecte jamais un article à une catégorie et une sous-catégorie de celle-ci. Ou à deux sous-catégories de la même catégorie. Dans le premier cas, on prend la catégorie la plus fine, dans le second cas, la catégorie la plus englobante (la catégorie mère).

(Il faut un article à soi tout seul pour justifier ça, ça viendra peut-être, mais faites moi confiance).

Et voilà que sur un article qui parle de Lady Gaga (oui, quand on tient une pelote, on la déroule…), j’ai donc les catégories :

  • mode/createurs
  • culture
  • mode
  • culture/musique
  • culture/musique/nouveaute-musique

et les mots clés

  • clips
  • defile
  • lady-gaga
  • mode

Chez moi, ça donnerait :

  • créateurs de mode
  • nouveauté musique
  • lady gaga
  • clips (?) et défilé (?)

J’ai mis des points d’interrogation car ces deux mots clés me semblent totalement inutiles dans un magazine généraliste comme Madmoizelle.

Il y a aussi beaucoup de tags qui renvoient des 404, comme celui-ci, -http://www.madmoizelle.com/motsclefs/smart_hpr_mode (et ça, Google, il n’aime pas qu’on lui mette des 404 dans les sitemaps, et surtout j’aimerais bien comprendre « comment » on y arrive avec Yoast ?)

Donc pour résumer, sur les 19.400 urls, on devrait en garder 12.000 ou 13.000 . Et encore, une estimation au doigt mouillé généreuse. Je n’ai pas les moyens d’accéder à la base pour faire une analyse plus fine du contenu des articles, de leur taille, de leur intérêt, mais est-il réellement nécessaire de continuer à envoyer à Google une page sur un nouveau jean distribué en 2006 ? Qui n’est qu’une re-rédaction d’un communiqué de presse ? Honnêtement ?

Hypothèse n° 1 : Google a fait la même réflexion que moi, il désindexe donc, mais pas les bonnes choses, ça on va aussi avoir des pistes d’explications. En tout cas, on arrive au même nombre de contenus indexés…

Deuxième problème, le format des archives

La suroptimisation via la répétition du titre.

Prenons notre catégorie Lady Gaga. Pour chacun des articles présentés, le titre est répété trois fois :

  • le title du lien
  • le alt de l’image
  • le h2

Et comme on est en pleine triplette du bourrin avec des urls qui reprennent, aux stops words près, le titre de l’article, que l’extrait fait à peine 26 mots (et reprend « Lady Gaga »), oh toi, lecteur régulier de mon blog, tu sens poindre ma légère exaspération sur la suroptimisation…. Bref, pour 436 mots lisibles par un humain dans la colonne de contenu (et encore, ça comprend les noms des catégories, des auteurs), le code source de la page comporte 76 fois l’expression « Lady Gaga » (y compris dans les urls), 87 fois le mot « Gaga » .

Les pigeons de Google

Google aime les pigeons, après les avoir mis au travail il a donné leur nom à une de ses mises à jour

Après la campagne anti-foie gras de Pamela Anderson, celle de Lady Gaga contre le gavage de pigeon ?

Le chargement des articles suivants et la gestion des pages suivantes des archives

Prenons maintenant notre tag Lady Gaga. Via le code-source, on arrive à la deuxième page d’archive, dont l’url est : /motsclefs/lady-gaga?page=2

Absente du sitemap, elle ne porte pas le tag robots= »noindex », par contre elle est carrément bloquée par le robots.txt

C’est en pratique exactement le contraire qu’il faut faire. Laisser le robot crawler, pour que les vieux articles ne soient pas orphelins, sans liens internes, mais éventuellement mettre les pages « suivantes » en noindex, parce qu’on n’a pas la possibilité de les soigner aussi bien que la première page de l’archive. (et c’est aussi ce que recommande Google pour l’infinite scroll qui ressemble un peu au chargement des articles suivants que propose Madmoizelle)

Et je me demande si une partie de ces pages désindexées par Google ne correspondent pas à des articles qui ne se trouvent « que » sur des « pages suivantes » des archives de termes ?

La gestion de la pub ?

La pub est quand même omniprésente sur Madmoizelle. Avec mon grand écran, sur certaines pages, je ne vois RIEN d’autre, la preuve par l’image !

Screenshot de la partie visible de la page

La rubrique « bons plans » de Madmoizelle

Et regardez le code source pour voir le nombre d’appels… Je passerais discrètement sur les articles sponsorisés en dofollow… seule l’équipe de Madmoizelle sait s’ils sont nombreux ou pas.

Les pièges à clic

Je sais quand j’ai envie de cliquer sur une pub. Ou pas. Là il y a un bandeau de l’Occitane. Malheureusement, si je clique sur la zone blanche à gauche et à droite de la colonne centrale de contenu, on m’envoie aussi sur une pub de l’Occitane. C’est une pratique assez abusive, que Google tend, je crois, à sanctionner.

L’auto pub ou la gestion des articles liés

C’est une hypothèse que j’ai émise sur WRI, qui est un truc très particulier sur ce site et qui, perso, me gonfle.

Je ne prétends pas « être Google », mais j’ai tendance à me dire que si un truc m’embête comme utilisatrice, ça pourrait bien faire partie des choses peu qualitative.

De plus, c’est un format assez spécifique à Madmoizelle. Or Google analyse le contenu des pages, je pense, par grands types de formats, genre « ça c’est une sidebar, ça c’est un blog de pub, parce que c’est comme ça chez les autres ».

Cet article (qui est, au passage, un bon exemple de la triplette du bourrin) a 2.430 mots, ce qui est un beau score.

Par contre, au milieu de ces 2.430 mots, on trouve 13 liens internes qui ne sont pas réellement « in text ». Au lieu d’être ancrés sur des mots de l’article, ce sont des « related posts« , mais insérés comme des pavés dans l’article. L’ancre de ces liens (le texte), représente en tout, 155 mots. Il reste donc 2.275 mots appartenant réellement à l’article.

Screenshot d'un article de Madmoizelle

L’insertion des « related posts » dans le coeur de l’article

Je pense que c’est une mauvaise idée :

  • cela empêche de varier les ancres internes (les articles seront toujours liés avec la même ancre : le titre)
  • cela donne des séries de liens dans un paragraphe, sans rien au milieu, bref un format typique des insertions publicitaires, même si là, il s’agit d’une pub « interne ».
  • on se retrouve quand même avec un ratio d’un lien pour moins de 175 mots dans le corps de l’article, mais si on prend le total des liens internes, on est à 185, 213 avec les liens externes, ce qui représente à peine 10 mots de contenu unique pour un lien

Le mini-mega menu

Sur les 185 liens, j’en compte 145 qui correspondent au menu du haut. Si on n’est pas « encore » dans les mega menus à 500 liens et plus de certaines boutiques en ligne, c’est à mon avis largement trop… une trentaine au maximum, avec un menu secondaire décliné par catégorie.

Les balises metas

Meta robots, un bug de Google ?

Je n’ai pas creusé, mais je vois passer pas mal de demandes sur le forum de WordPress, liées à des problèmes d’indexation. A chaque fois, je vois dans le code source un

<meta name="robots" content="noodp"/>

Du côté de All In One, c’est différent

<meta name="robots" content="index,follow,noodp,noydir" />

Sur WRI, j’ai suggéré à Fabrice de rajouter la valeur « index » dans sa balise robots. Théoriquement, il n’y a pas besoin, la doc de Google précise bien que index et follow, étant des valeurs par défaut, n’ont pas besoin d’être indiquées. Néanmoins, Google peut avoir un bug ? rajouter 12 caractères ne va pas tuer la performance…

Un contenu de qualité, mais des contenants à revoir

Chacun de ces défauts, à lui tout seul, ne peut pas justifier une désindexation.

Par contre, réunis tous ensembles, plus éventuellement d’autres choses, ils peuvent être typiques d’une situation où un site est « juste au-dessus » et passe « juste au-dessous » parce que l’algo donne plus de poids à certains critères.

Les contenus intéressants, de qualité, des articles, sont noyés au milieu de la pub, des liens internes trop nombreux et de milliers de pages d’archives qui ne sont pas gérées. De plus, quand on passe rapidement sur les tags et les catégories, on voit que beaucoup d’entre eux sont liés à des marques ou des personnalités, or il semble que cela soit un des effets de la mise à jour de l’algorithme : pénaliser les medias généralistes sur les mots clés de marque.

La curation du contenu, la mise en place de pages d’archives qui soient réellement optimisées, l’amélioration des liens internes est devenue essentielle, l’étape de l’optimisation qui consistait à ne pas avoir des h2 et des h3 dans tous les sens est dépassée (au passage, quand même, la page d’accueil n’a pas de h1 et beaucoup de h2…).

Il est facile de se laisser dépasser quand un site a beaucoup de contenu, d’oublier les alts (et l’accessibilité alors ?), de perdre de vue la structure qui sous-tend le site. Surtout avec de nombreux rédacteurs.

Contrairement à un site d’entreprise, à un blog « professionnel », un magazine comme Madmoizelle n’a a priori pas de mots clés très précis (en dehors de Lady Gaga), donc n’a pas la pression pour organiser tout ça. Sans aller jusqu’au silo ou au cocon sémantique, inapproprié ici, il faudrait faire du ménage, avoir une politique volontaire de désindexation des contenus pauvres.

Pourquoi ce sont les articles et pas les véritables contenus pauvres qui sont désindexés ?

J’ai vécu récemment la même difficulté sur un site dont j’ai changé le nom de domaine, et Google a eu du mal à retrouver ses petits, comparant le site sur le nouveau nom de domaine à une version manifestement ancienne du cache. Il est passé dans les contenus « du plus récent au plus ancien » avant que les choses reviennent à la normale. Comme s’il crawlait d’abord ce qui est récent, et trouvait cela comparable à une version ancienne déjà stockée, et donc le rejetait. Ici ce serait plutôt une sorte de « j’ai du mauvais contenu dans ce site, faisons de la place, et regardons ensuite ce qui est bien ».

Si c’est le cas, et si Google fait d’abord sauter les pages les plus récentes, il se peut qu’elles reviennent ensuite, tandis que les pages de tags et de catégories sauteront…

Yoast ne fait pas le SEO

Au risque de me répéter, Madmoizelle.com est un excellent exemple de la façon dont Yoast « ne fait pas » le SEO. Un paramétrage mal fait (l’indexation des tags) et Yoast perd tout intérêt.

Or des solutions existent pour gérer de façon semi-automatisée l’indexation des archives de mots clés et de taxonomies en général. Soit on se refait son plugin SEO de A à Z, soit, comme la flemmarde que je suis, on fait un « plugin de plugin ». Et là, j’anticipe sur un autre article, Yoast est beaucoup plus galère que All In One SEO. Je travaille énormément en ce moment sur la qualité des pages d’archives, qui peuvent plomber un site ou, au contraire, être des contenus très intéressants. Porter vers Yoast ce que j’ai codé pour All In One est juste … frustrant !

En conclusion

Tout cela ne sont que quelques pistes, et je ne pense pas qu’il y ait une cause unique à cette désindexation (sauf un problème technique non décelé). J’ai souvent eu des sites qui ont joué au Yoyo, sans que cela atteigne ces proportions, et cela doit être extrêmement difficile à gérer. Ici, la difficulté c’est de gérer l’urgence (la baisse de trafic) sans faire de bêtises, et surtout sans précipitation, c’est-à-dire sans mette en place des mesures correctrices qui ne feraient qu’empirer les choses. Par contre, que cela soit la cause principale ou pas, il est essentiel de s’attaquer à la qualité du contenant, celle du contenu étant déjà là.

29 commentaires

  1. Je n’irais pas plus loin qu’un « Merci ! »

    Bon en fait si, mais merci parce que voir de multiples théories (fumeuses ?) ressortir sur le net, ça en devient exaspérant. L’entraide oui (et heureusement !) mais quand on y connait rien, ce serait bien de s’abstenir…

    Alors certes, tu n’as peut être pas trouvé la solution totale, mais au moins ça se tien et ça fait avancer le schmilblick.

    En tout cas, belle observation !

    Répondre à sébastien robbe
  2. Article super intéressant ! Ce site avait il déjà fait des audits SEO ?
    je suppose que non, à lire cet article.
    en tous cas je remarque que les pages de tag ne sont pas indexées (à ce jour) ce qui est plutôt une bonne choses étant donné le nombre…

    Répondre à Luc
  3. Tu publies moins souvent qu’avant, mais franchement, tu fais les meilleurs articles (avec A Berrut) sur le SEO. Toujours aussi intéressant à lire. 

    Pour revenir au sujet, le site vends des articles sponsos, indique bien la mention « article sponsorisé » sur la page mais… laisse les liens en DF. 

    Bref, on dirait qu’on a affaire à un cumulard !

    Répondre à SylvainV
  4. Enfin quelqu’un qui a pris le temps de commencer une vraie analyse. Je pense qu’ils ont trouvé leur nouveau consultant ;)

    Il ne leur manque plus qu’a t’ouvrir leur accès aux logs et analytics pour vérifier tes propos. 

    Je me demande si les pages désindexées étaient actives ou non. Je parie que ça fait des mois qu’elles n’avaient pas généré de trafic organic.

    Répondre à Guillaume
    • Pour le trafic, c’est une très bonne question. D’après ce que dit Fabrice, oui, elles étaient actives, puisqu’il y a une grosse chute de trafic. Il mentionne des articles, et même la page d’accueil, pendant quelques heures.

      Répondre à Marie-Aude
  5. Merci ! J’ai a peine lu les commentaires sur le site de Madmoizelle et j’ai vite laissé tomber, il me semble bien que le soucis est en effet bien plus complexe, et plus en profondeur (pas compliqué d’en arriver a cette conclusion sans avoir fait d’audit)

    Belle synthèse, et bonne réactivité ! :)

    En parcourant les avis des lectrices (teurs) du site j’avais envie de dire a Fab que ce n’était p.e pas une bonne idée de prendre les avis de tout le monde en meme temps en situation d’urgence, ca peut vitre être la confusion et effacer les priorités

    Répondre à carine
  6. Wow !!!

    Ça c’est de l’article :-) et une belle analyse !

    Au niveau des tags (ou plutôt des termes de taxonomies – soyons précis) s’il m’est arrivé de les gérer de manière disons « optimisée » (par ex. sur mon blog photo où leur liste est une liste FINIE et maîtrisée, sans jamais un doublon), avec le temps et l’expérience j’ai surtout appris à m’en méfier et à finalement n’y voir que des outils d’ergonomie pour l’internaute (et encore…) plus que des points d’entrée « SEO ».

    Les 404 à foison peuvent aussi impacter de manière très négative un site, j’en ai fait l’expérience (j’ai récupéré un site avec +1200 URL en 404 suite à une refonte…) donc il faut « aussi » gérer cela de manière fine et régulière.

    Quant aux liens internes, plus je fais des sites, moins j’en fais… Sur ce point Madmoizelle est un bel exemple de ce que je ne ferai donc pas !

    Répondre à Cédric
  7. Blackterril Auteur janvier 19, 2016 (5:56 )

    On peut aussi considérer la thèse du full duplicate via cloacking de leur site( relevée sur Twitter ) comme une piste mais sans accès aux données c’est compliqué.

    exemple : https://www.google.com/webmasters/tools/mobile-friendly/?utm_source=psi&utm_medium=referral&utm_campaign=uxresults&url=http://www.ffcharts.com/femmepascherdoudoune.asp%3Ftrucs-demeures-internet-2015-78831

    En attendant c’est un bien bel article qui servira certainement de base à beaucoup . Ils ont tout de même pas mal de pain sur la planche pour tendre vers les « bonnes pratiques »

    Répondre à Blackterril
    • Sylvain D Auteur janvier 19, 2016 (9:01 )

      Perso, j’aurai considéré cette « thèse » comme étant LA RAISON de cette désindexation… Mais effectivement sans les accès complets aux données difficile de confirmer.

      Répondre à Sylvain D
  8. Bravo Marie-Aude pour cet audit front-end de leur site. Avec tout ça j’ose espérer que la considération du métier de SEO sera quelque peu revalorisée… Donc merci pour avoir pris le temps de faire cette analyse.

    Répondre à Yann
  9. merci pour cet audit SEO. Il a bien de la chance d’avoir les meilleurs SEO à son chevet.

    Je ne vais pas parler de Mad’, que je ne connais pas assez bien mais tes arguments sont bons. Pour mon magazine féminin (ô combien minuscule par rapport à Mad’), j’ai essayé dès le départ de réduire au maximum le nombre de pages (inutiles) indexées : tag, archives, numérotation, …
    Au final, 3030 pages indexées pour près de 2900 articles et 46 catégories ou sous-catégories. Faudrait que je regarde ça de plus près, j’ai sans doute des choses à travailler.

    Répondre à Erwan
  10. Hyper complet, tres bon ils pourraient deja commencer par cela – Il m’avait semblé lire qu’ils avaient aussi un probleme de scrapping / duplicate – ca peut jouer – je vais moi meme rediger un article sur ce sujet – mais comme j’ai pas creusé je ne suis pas sur non plus

    Répondre à Le juge
  11. Bravo pour cette très bonne analyse ! Et merci à Fabrice de l’avoir partagée…
    Comme je l’explique souvent, il vaut mieux ne pas utiliser les tags que de mal les utiliser, c’est une source de génération de duplication de contenus et pages à faibles contenus, et pour moi c’est le plus gros défaut de WordPress.
    Pour les publicités, étrange qu’ils n’aient pas été pénalisés avant car Google possède un algorithme dédié aux publicités abusives et quand on voit ta capture, c’est clairement exagéré !
    Il est clair que le cumul de toutes ces sur-optimisations, de publicités, de mauvaises utilisations de WordPress,… il fallait s’y attendre…
    J’ai lu plusieurs fois que tu n’aimes pas Yoast, mais personnellement, correctement configuré, il donne d’excellents résultats.

    Répondre à CreaNico
  12. Pascal_ccbb Auteur janvier 20, 2016 (9:22 )

    Salut Marie Aude,

    cool ton analyse, je te suis à 200%, je rajouterais qu’il faudrait analyser les backlinks, il y a une hausse de BL très (trop) forte depuis quelques mois… Je rajouterais donc ça à ta globalité de signaux

    Répondre à Pascal_ccbb
  13. Salut Marie-Aude… et bravo pour cet audit !
    Je dirais qu’ils n’ont plus qu’à te remercier pour cette première analyse et te commander le reste de l’audit ! :)
    En tout cas tu montres aisément que le SEO c’est avant tout de l’analyse et de la logique et pas un simple plugin à installer ou un bouton magique à enclencher. Merci !

    Répondre à Arnaud
  14. Ghislaine Auteur janvier 20, 2016 (12:09 )

    Franchement bravo ! Ton analyse est claire et pertinente, et c’est un vrai plaisir à lire, même pour une néophyte qui n’est là que par curiosité et qui essaie de comprendre comment ça marche.

    Répondre à Ghislaine
  15. Beau travail, un bel audit externe et au final encore une listes de points parfois un peu pointus mais régis par le bon sens.

    Répondre à Frédéric
  16. Whouah !

    Ton article est touffu, complet, et même sans avoir la moitié de vos connaissance en SEO je l ai trouve passionnant.

    Merci

    Répondre à Mlle Gima
  17. Le problème est sous nos yeux depuis 10ans et Google vient de le remarquer, il y a 2 fautes d’orthographe à MadmoiZelle. désolé je devais la faire celle là.
    Perso j’ai abandonné l’utilisation des tags c’est un point très important , ça sanctionne un moment ou un autre si c’est mal géré, surtout avec ce nombre important d’articles. Il vaut mieux avoir des catégories et faire du maillage seulement sur certain terme semblable à des tags. La technique c’est de copier Google, voyez vous des tags dans leur contenu ? Non juste du maillage à foison. ex : https://support.google.com/analytics/answer/1008015?hl=fr&ref_topic=3544906
    Merci pour cet article ! ça manque ce genre d’analyse, bon rétablissement à MadmoiZelle.

    Répondre à Michael
  18. ybet Patrick Lejeune Auteur février 18, 2016 (8:38 )

    Bonjour, Marie-Aude.
    Les « perturbations » ont débuté fin décembre 2015 – tout début janvier 2016 : les deux mises à jour de mi-janvier sont justes des modifications (ou plutôt des soubresauts plus importants) qui ont été plus vite détectés parce que touchant plus de pages et de requêtes en même temps.
    Ce pourrait être Panda qui est annoncé depuis des mois mais j’en doute. Reste Google Quality et Pinguin. Je sais pas le quel mais un de mes site touché par Pinguin ET Quality a largement profité de cette mise à jour de prêt de deux mois. Comme modification c’est derniers mois (avant la mise à jour): transfert des liens en contenu vers fin de page dans les articles avec les mots laissés dans le contenu …. les gourous du référencement qui parlent de liens sous la partie visible ont tord ! Quelques autres modifications liées à la position des liens (et pas forcément des liens répétitifs … deuxième erreur des gourous en INTERNE). De même, le transfert des liens de la partie droite vers la gauche (donc avant le contenu) font écrouler la page … et celles qui reçoivent : c’est probablement Quality.
    Le site qui monte n’est normalement plus copié (en dupplicate) nulle part. C’est quand même +30-40% de montée.

    Michael n’a pas tord, le maillage répétitif est une des raison de Pingiun aussi. Ce qui sauve les tags, c’est que le lien reprend le plus souvent une anchore reprise aussi dans le contenu.
    Pas la peine de le publier, tu as des grosses pistes pour répondre sur WRI sur quelques questions sur les pénalités.
    Patrick.

    Répondre à ybet Patrick Lejeune
  19. Guillaume BlogResto Auteur février 28, 2016 (10:29 )

    Bonjour Marie Aude,

    Cette analyse est passionnante et comme souvent sur votre site les commentaires génèrés, le sont tout autant.

    J’ai bien compris l’intérêt de désindexer le contenu pauvre et cela est certainement encore plus vrai avec un gros site tel que mademoizelle.com.

    Finalement, indexer seulement les articles et pages voir les catégories, est ce une bonne solution ?
    Ou faut il simplement savoir se pondérer ?

    Lorsque tu abordes la sur-optimisation et la fameuse triplette ;) ! Il est clair que dans le monde du référencement le jeu est souvent l’optimisation sans passer en sur-optimisation. J’ai l’impression aussi suivant le contexte que ce qui vaut pour un site A ne vaut pas toujours pour un site B.
    Est ce qu’ aujourd’hui certaines pratiques d’optimisations de contenus sont totalement bannies ou c’est le cumul de pratiques qui est néfaste. En gros comment savoir si je fais plus qu’optimiser et qu’elle est la limite acceptable ?

    Merci encore

    Répondre à Guillaume BlogResto
    • Hello Guillaume,

      je n’ai pas de règle stricte :) cherche dans ce blog un article sur ma grand mère qui faisait un excellent pot-au-feu ^^ pour savoir ce qu’il faut indexer, cela dépend vraiment de chaque site, et cela s’articule sur une analyse de mots clés. Désolée de ne pas pouvoir être plus précise :)

      Répondre à Marie-Aude
  20. Guillaume BlogResto Auteur mars 1, 2016 (5:12 )

    Merci Marie-Aude, je vais me faire un plaisir de goûter ce pot-au-feu alors. ;)

    A bientôt

    Répondre à Guillaume BlogResto
  21. J’ai un certain doute sur cette subite baisse, en corrélation avec des modifications profondes du sites et les explications ci-dessus, et même la réponse de Google qui a été faite.

    Google commet parfois des erreurs de crawl, parfois très lourde, je connais et j’ai donné. Il s’agit parfois de tests chez google, notament lorsque qu’un ingénieur (ou stagiaire) pond un algo (par exemple) destiné a deceler des urls dans du texte sans que cette url soit entourée de balises. C’est un exemple , il y a d’autres modifs dans les tests de crawl et améliorations des algorithme liés a ces fonctions qui sont possibles et fréquents, avec parfois des bugs ou des malfonctions.

    Le fait est que cette baisse est consécutive a des modifications profondes du site, la corrélation semble évidente même si elle n’est pas absolument certaine.

    Cela m’est déjà arrivé de procéder a des modifications importantes et sans le voir immédiatement, créer des erreurs de liens que l’on retrouve sur … 8 millions de pages … et Google ne peut les signaler que 6 MOIS PLUS TARD …
    Il suffit d’un espace de trop dans l’url, une virgule etc pour casser des millions de liens sans s’en rendre compte dessuite.

    Et il suffit de laisser en l’état 2 ou 3 jours, si Google crawl très rapidement le site, même si l’on répare sont erreur, le mal est fait Toutes les pages crawles en 2 ou 3 jours sont en cache, et l’extraction / suivi des liens suivants se feront sur ces pages en cache chez Google. Et il faudra des mois pour que cela reviennent a la normale…

    Et il se peut même que le développeur qui a fait l’erreur le cache discrètement, une fois le code remis en place, ni vu ni connu.

    Donc voilà, je doute un peu de la mauvaise interprétation de la balise meta robots qui n’a pas lieu d’exister, sauf si l’on veut INTERDIRE a celui-ci certaines fonctions. Sinon, il vaut mieux ne pas la mettre puisque dans ce cas le robot indexe et suit les liens.

    Répondre à Marc
    • Bonjour,

      Je viens de lire votre théorie, et je trouve que cela ressemble plus à de l’extrapolation à partir d’un cas particulier (et personnel, d’après ce que j’en comprends) que d’une généralité reconnue ou du moins que d’autres sites ont déjà rencontrées.

      Les URL et la balise meta robots sont quand même la base d’un moteur de recherche et je doute très sérieusement d’un bug de cette ampleur sur une telle application. Les tests de non-régression pour ce genre de mise à jour doivent être énormes et une grande partie est automatisée.

      Comme l’article l’a montré, même si Google a reconnu un bug, la cause de ce changement peut aussi être lié à une accumulation de petites mauvaises pratiques sur votre site qui finissent à un moment par dépasser la ligne rouge, et là c’est la sanction brutale.

      Répondre à Tazzaz
  22. bon ben Mademoizelle peut et dire merci pour cette excellente annalyse j’en apprendun peu plus sur le seo pour ma part c’ets super

    Répondre à greenmaman
  23. Bonjour,
    tout d’abord merci pour cet article qui a beaucoup de pertinence.
    J’ai une question concernant les catégories, est-il préférable d’avoir une catégorie avec 200 articles ou deux catégories avec chacune 100 articles.
    Un exemple imaginons une catégorie « portrait » elle pourrait être scindée en « Portrait au féminin » » portrait au masculin » ,
    Est-ce que ça a du sens ? totalement inutile ? …
    Merci pour votre avis.

    Répondre à Bernieshoot

Commenter

*Informations requises Merci de donner les informations requises

  • Pas de liens raccourcis
  • L'auteur doit s'identifier avec son pseudo, son nom, son prénom ou s'il le veut le nom de son entreprise ou de son site, sauf si celui-ci correspond à des mots clés. Toutes les combinaisons sont permises dans ce cadre.
  • L'url peut être celle d'un site ou profil de réseau social, uniquement la page d'accueil
  • Pas d'adresse email jetable

*

*