Crise de rire à 700 USD
Je ne sais pas si vous vous souvenez de la crise Wikio ? coZop a la chance de ne pas être aussi gros, mais sinon, sur le fond, il y a autant à dire, sinon plus.
Si vous ne connaissez pas, coZop est un site du type Paperblog, c’est à dire une plateforme sur laquelle on s’inscrit pour faire republier ses articles, et bénéficier ainsi d’une plus grande diffusion. Les articles sont republiés intégralement ce qui suscite de nombreuses questions sur les risques de duplicate content et le “vol” de contenu, interrogations bien légitimes auxquelles coZop répond sur son blog.
Avant de détailler ce qui me fait bien rire, je tiens à repréciser : il faut savoir ce qu’on attend de ses plateformes, et ne pas tenter de les utiliser pour augmenter son positionnement, son indexation, ou son trafic. En revanche, si on cherche simplement à diffuser ses idées plus largement, elles sont utiles.
Maintenant rentrons dans le vif du sujet :)
Pour Cozop, le duplicate content n’est pas dangereux, il est même utile pour valoriser votre site
Premier post à ce sujet, le 18 février 2008, le Duplicate Content n’est pas un danger pour vous.
Ça commence très honnêtement :
Si personne ne peut avoir de certitude à ce sujet parce que personne ne connaît les détails des algorithmes des moteurs, celui de Google en particulier
mais ça se gâte tout de suite après
mon expérience me prouve que republier des billets ne nuit pas à leur référencement, et RankSpirit est de mon avis. .
Pas de bol, ce n’est pas ce que dit RankSpirit. En fait RankSpîrit dit même exactement le contraire, le duplicate content est dangereux.
La “sandbox”, le “blacklistage” ou la perte de “PageRank” ne découlent jamais d’un phénomène de “Duplicate Content”, excepté dans un cas bien particulier : lorsque deux pages sont très exactement identiques (lire à ce sujet la page “URL canonique” du site Annuaire-Info). Les pages qui sont retirées des résultats ne sont pas pour autant désindexées. Elles figurent toujours dans les index des moteurs de recherche et conservent leurs PageRank (sauf dans le cas particulier évoqué ci-dessus). Si une petite portion de leur contenu est originale (cas de pages similaires, mais non identiques) elles figureront toujours dans les résultats de recherche portant sur ce contenu original.
En clair : le duplicate content ne pénalisera pas un site entier, mais il enverra la page dupliquée dans les profondeurs des résutats annexes, sauf pour les parties considérées comme originales.
Et donne plusieurs exemples d’où il ressort qu’en gros, c’est le site avec le plus fort PR qui passe en premier.
Depuis les choses ont évolué, et Google tente d’identifier la page source, mais cette identification passe par deux critères : la page indexée en premier (donc le site le plus gros, le plus souvent mis à jour, qui sera crawlé beaucoup plus régulièrement et qui a de fortes chances d’être indexé avant la source), et le site avec le meilleur trustrank.
Et ce ne sont que des améliorations de l’algo, sans aucune garantie.
Si on ne pouvait pas spammer les résultats, ça se saurait.
Copier un article le valorise, au contraire, dit coZop
Là j’avoue que je suis tordue de rire sous mon bureau… je vous laisse juge :
les articles de wikipedia sont souvent republiés à tour de bras. Cela n’empêche pas wikipedia d’être presque systématiquement dans les tops résultats.
La prééminence de Wikipedia sur les autres sites est liée à son énorme volume, à son linking interne, à son absence de liens sortants en dofollow, et surtout à son énorme trustrank, certainement pas aux copies de ses articles.
D’ailleurs dans un autre article, – décidément le sujet est sensible – on voit bien que la vision coZop n’est absolument pas orientée vers le référencement et les mécanismes web.
Est-ce qu’en dupliquant sur des milliers de sites la Déclaration Universelle des droits de l’homme nous diminuons sa valeur ? Non. Au contraire, nous lui donnons plus de visibilité. C’est le principe des tracts qu’on colle partout. Plus des textes sont dupliqués, plus ils ont de chances de trouver des lecteurs.
Si je me replace au coeur du sujet, la duplication sur des milliers de site de cette déclaration conduit à une mission impossible pour le petit webmaster pour positionner un article même original sur ce sujet. La masse de contenu tue l’originalité.
Pour le webmaster, la “valeur” d’une page c’est sa capacité à monter dans les résultats.
C’est sa capacité à draîner du trafic vers son site (et éventuellement à promouvoir d’autres articles).
Bref, c’est sa capacité à être remarquée.
Le duplicate content tue cette originalité.
L’incompréhension manifeste du mécanisme de duplicate content
Continuant ma lecture, je vois que Google lui même confirme ne pas pénaliser les contenus dupliqués.
Surprise, grande nouvelle, tremblement dans le monde du référencement.
Je me précipite vers la source Google citée.
Comment dire ? Est ce parce qu’elle est en anglais ?
J’y lis une explication sur les mécanismes de duplicate content internes à un site, (notamment avec le problème des urls menant vers un contenu identique), et un avertissement très clair :
Syndicate carefully: If you syndicate your content on other sites, Google will always show the version we think is most appropriate for users in each given search, which may or may not be the version you’d prefer. However, it is helpful to ensure that each site on which your content is syndicated includes a link back to your original article. You can also ask those who use your syndicated material to block the version on their sites with robots.txt.
Donc en français :
Syndiquez vos contenus avec précaution : si vous mettez vos contenus sur d’autres sites, Google montrera toujours la version qu’il considère comme étant la plus pertinente pour une recherche donnée, qui peut être ou pas la version que vous préféreriez. Quoi qu’il en soit, il est utile pour y parvenir que les sites qui syndiquent votre contenu fassent un lien vers la source originale. Vous pouvez aussi leur demander de bloquer l’indexation sur leur site avec un fichier robots.txt
Et en explication claire : Google fait ce qu’il veut, comme il veut, c’est le contenu d’une page donnée qui compte. Le seul moyen efficace, c’est que l’aggrégateur bloque l’indexation de son propre contenu (mais dans ce cas… walou l’aggrégateur).
Pour transcrire cela en “Google confirme ne pas pénaliser les contenus dupliqués” il faut avoir de sérieuses lacunes en anglais, ou en mécanismes web, ou les deux (je m’abstiens bien sûr de tout procès en mauvaise foi).
Le lien retour est il efficace ?
J’ai étudié quelques pages coZop.
En moyenne, il y a plus de 70 liens. (Mais moins de 100, ce qui montre une attention aux consignes de base de Google, celle là a été bien comprise).
Et un seul lien vers la source de l’article
Le pire, c’est que ce lien n’est absolument pas optimisé. On aurait pu espérer par exemple qu’il reprenne le titre de l’article, histoire de donner à l’auteur une petite ancre qui va bien ?
Raté.
Il y a selon coZop 1.155.582 articles. Il y a donc 1.155.582 liens avec le même libellé, “accéder à la source”.
Et 1.155.582 liens vers le contenu dupliqué sous forme de page à imprimer, sur coZop bien sûr, contenu qui n’est pas interdit dans le fichier robots.txt.
Je vous copie celui ci dans sa grande simplicité :
User-agent: *
Disallow: /_ajax/
Disallow: / _ /
User-agent: LiteFinder
Disallow: /
Sitemap:
De deux choses l’une, ou coZop n’a pas cherché à éviter le duplicate content sur les versions imprimables, qui sont sous la forme cozop.com/_print/nom d’article, ou alors ils pensent que /_/ fait le travail, et dans ce cas ils interdisent aussi leur sitemap.
Ce qui en soit n’est pas très grave, puisque voici le contenu du sitemap
Une url retour avec une ancre répétitive, perdue au milieu de plusieurs dizaines d’ancres textuelles internes dans le site ne fait pas le poids pour prouver la source originale d’une page. Et surtout le contenu rajouté par coZop donne plus de poids au contenu dupliqué, c’est la force de ses aggrégateurs
Edit :les liens sur les versions imprimables sont en noindex nofollow. Honte à moi, je n’avais pas vu. Donc pas de duplicate content sur cette page.
coZop et les droits d’auteurs
Un des côtés sympathiques de cette entreprise un peu amateur, c’est la volonté affichée de partager les revenus.
Après tout, si on détourne du positionnement, on peut donner des sous à la place.
C’est le fond de leur idée de base, l’auteur qui voit son livre “copié” à de multiples exemplaires en reçoit des revenus supplémentaires.
Affichée, mais réelle ?
Les bons comptes font les bons amis, je me servirai uniquement des chiffres donnés par coZop.
700 USD de revenus AdSense en novembre 2008. (Je ne donnerai pas le CPM, je vous rappelle que vous ne devez pas diffuser ces chiffres selon le contrat AdSense).
Partagés à 50% avec les auteurs.
Bien.
Donc 350 USD.
A partager avec 7.821 sources.
Ce qui nous fait 4,5 centimes par auteur.
Je ne vais pas être mauvaise langue, mais en 15 jours de revenus partagés sur WRI, j’ai fait largement mieux.
Bon 4 centimes par mois et par auteur, ça nous fait 2.500 mois pour atteindre le seuil des 100 euros de reversement.
coZop est une banque virtuelle qu’ils disent… même en imaginant que 20%, allez 10% des auteurs fassent 80% des revenus, il va falloir très sérieusement optimiser la pub pour que ça soit un jour autre chose qu’un partage virtuel.
Mais il y a autre chose de très drôle dans gestion des droits d’auteurs chez coZop.
N’importe qui peut inscrire un flux chez eux. – ce qui est le cas de la plupart des aggrégateurs.
Mais si quelqu’un vous a inscrit, et que vous voulez en partir, là ça devient plus compliqué.
Il faut identifier votre site. Après tout, why not ?
C’est la méthode d’identification qui est croquignolette.
Voilà les instructions qu’un webmaster a reçu :
Pour récupérer une source, nous devons nous assurer que vous en êtes le propriétaire.
Avant de valider ce formulaire, placez sur ww.example.com/ le lien suivant : < 'a href=" -http://cozop.com" rel="codeidentification">Je publie sur coZop< / 'a>
Tout BL est bon à prendre ?
Alors juste pour info, la méthode du Dieu Google tout puissant qui ne pénalise pas le duplciate content au contraire ça lui prouve que le texte a de la valeur (j’en rigole encore) : charger sur son espace ftp un petit fichier avec un nom unique. Il suffit de chercher à afficher le fichier, et voir si on a un code 200 ou un code 404.
Pas besoin d’un BL particulièrement énervant quand on cherche à quitter un site qui vous pose des problèmes.
Et la poire pour la soif
C’est cette demande “technique” :
Nous préparons une nouvelle version du robot pour essayer de mieux capturer les articles non publiés en intégralité dans les flux. Dès sa mise en ligne, la restitution de ces articles devrait être meilleure.
PS : Pour faciliter le travail du robot, essayez de structurer les templates de vos blogs. Veillez par exemple à ce que le contenu d’un article soit positionné dans une div. De nombreux blogs possèdent une structure flottante et notre robot a souvent du mal à délimiter les articles. Le titre, la date et les commentaires devraient idéalement se situer dans une div différente par rapport au corps du texte. Nous espérons toutefois réussir à rattraper même ces cas de figure.
Je rêve.
Enfin c’est pas grave, parce que jamais je ne publierai sur coZop. Mais je vais m’abonner à leur blog. Malgré toutes les pages en 404.
C’est ce qui s’appelle “être habillé pour l’hiver” ?
@obella, oui c’est toute l’ambiguïté entre une augmentation du lectorat d’un texte, et l’augmentation de trafic pour un site. C’est ce que j’avais déjà dit dans mon premier article, et que je répète au début, il faut savoir ce que l’on fait quand on utilise ces sites, et pourquoi.
Maintenant, ce qui me fait rire, et qui a justifié cet article, c’est la “justification” pour expliquer que cela ne détourne pas des lecteurs du site d’origine parce que Google détournerait le duplicate content.
@Isabelle, vous pourriez au moins développer certains arguments ici, je le ferai pour vous.
Et puis à titre personnel, il y a une chose que je déteste, c’est quand on écorche les noms des gens, des sites ou des marques.
dans coZop on lit:
“Du moment que lors d’une duplication un lien pointe vers la source, cette source est reconnue comme l’original. Google lui accorde plus de poids qu’à sa copie. Donc, lorsque vos contenus sont reproduits sur coZop, c’est coZop qui d’une certaine façon est pénalisé, pas vous. Vous ne risquez absolument rien.
Notre travail à coZop est de vous faire gagner des lecteurs, pas de vous en prendre. Nous espérons les attirer grâce à nos fonctions de lecture coopérative. Peut-être qu’ainsi ils découvriront vos articles et les liront. Nos comptabilisons vos statistiques et même vous attribuons éventuellement des revenus.”
il a tord de dire “c’est coZop qui sera penalisé” car si tu postes le contenu d’une page de ton site dans coZop, coZop modifie le titre et la description de la page, son contenu est modifiée legerement par le lien retour vers la source peut être, modifié aussi legerement par coZop.
Merci pour votre article intéressant et techniquement juste. J’y réponds pour coZop sur notre blog : .
Merci encore une fois Marie-Aude,
Tout WRI est avec toi!
4,5 centimes … c’est presque une petit bonbon … c’est déjà ça!
merci pour cet article Marie-Aude, heureux de voir qu’un débat est lancé, espérons que tes arguments -légitimes- ne tomberont pas dans l’oreille d’un sourd et feront avancer les choses …
Ah bé raté je viens de lire la réponse, ça noie méchamment le poisson, un joli discours marketing bien policé tendance Abbé Pierre “on est la pour aider les gens”, complétement à côté de la plaque… ils la jouent fine en résumant ton intervention à un “discours technique” bien secondaire par rapport à leur vision humaniste et philosophique (difficile de retenir un lol)
Non mais franchement, avoir un “espace de jeu et d’expérimentation” n’autorise pas à faire n’importe koi, une petite remarque au passage : comment ne leur est-il pas venu à l’idée de faire la vérification du propriétaire d’un site AVANT qu’il soit intégré ? ça résulte forcèment d’un choix (bien douteux selon moi)
Merci à vous deux :)
@screu, moi je suis fan de “Pierrots Gourmands”
@Fran6, oui ça noie le poisson. Il est difficile de faire autrement, et, amha c’est le modèle de base qui n’est pas bon. Dans l’article suivant, la philosophie de coZop j’ai jetté quelques idées de ce que devrait être un bon aggrégateur de contenu, qui serve à la fois les auteurs sans desservir les sites. C’est un peu du yakafokon, en même temps si coZop veut expérimenter, libre à eux.
Quant à la vérification du site avant l’intégration, je crois effectivement que Paperblog n’en avait pas d’autre que l’email. Mais ça serait un plus.
Bonjour
je viens de m’apercevoir qu’au moins un de mes articles est dans ce fameux Cozop. Outre le fait que je ne m’y suis pas inscrit comme auteur et que donc je ne devrais pas me retrouver sur ce site, il est clairement indiqué sur ma page d’accueil que textes et musiques sont sous licence Creative commons by Nc-sa.
Si je ne m’abuse, le côté commercial de Cozop n’est pas à démontrer, puisqu’il prétendent même renumérer les auteurs via lapub. Donc, pour ma part ils ont en infraction totale avec la license que j’ai choisi.