Frédéric Filloux n’est certainement pas un partisan du protectionnisme, ou de l’économie administrée, ni même de l’administration française. Son blog partagé avec Jean-Louis Gassée, The Monday Note n’est pas tendre envers la presse, qu’il connait bien de l’intérieur, et dont il analyse avec rigueur les difficultés, bien au delà du motto « tout est de la faute des blogueurs et de Google ».

Son dernier article est donc particulièrement intéressant, en ce sens qu’il ne provient pas d’un chaud supporter des mesures de type Hadopi ou autre. « Cashing in on stolen contents », en français « faire des profits sur du contenu volé » mets le doigt sur un des problèmes récurrents du web : les sites qui non seulement ne respectent pas les droits d’auteurs, mais qui en tirent des revenus.

Le vol de contenu : les agences de presse

Pour les non anglophones, un résumé qui sera sans doute plus exact que la traduction automatique de Google (mais agrémenté de mes propres commentaires…)
Une étude a été faite, sur la base des 400 dépêches diffusées quotidiennement par l’AFP à un service appelé Attributor dont l’objectif est de suivre et de supprimer (comment ? Je suis en train de regarder) le contenu copié illégalement.

Les abus sont de trois sortes :

  • L’utilisateur a souscrit à l’offre de l’AFP, il reprend en tout ou partie la dépêche, et la signe, sans indiquer, ou insuffisamment la source. « Légal, mais pas éthique » (et j’ajouterais, idiot, car cette propension à recopier sans réfléchir des textes est justement ce qui fait perdre de l’intérêt aux journaux « classiques » même en ligne).
    L’exemple donné par Frédéric Filloux est particulièrement pervers, puisque la dépêche de l’agence n’est que la reprise d’un scoop du Figaro…. « un exemple du recyclage infini des contenus sur le web ».
  • Le blogueur qui reprend, ingénument ou pas, une dépêche AFP sur un sujet qui l’intéresse, le copier collé fonctionnant nettement mieux que la rédaction originale. Surtout quand le temps passé sur internet n’a pas permis d’améliorer une orthographe défaillante… ce qui, sur certains blogs, est une indication certaine de « contenu volé », quand le niveau de français devient exceptionnellement correct !
  • Le contenu volé en toute connaissance de cause, notamment par nos « amis » les MFA, le plus souvent à travers des processus de leech automatique

Les chiffres sont énormes

Bien que les résultats chiffrés de l’AFP ne soient pas donnés, pour des raisons de confidentialité, Frédéric Filloux donne ceux d’une étude plus générale, faite par Attributor sur le marché américain.
La valorisation du contenu volé est estimée par rapport aux nombre de pubs, au cpm moyen et à l’estimation de l’audience du site voleur, sur une base de 100.000 articles publiés par 157 journaux.
112.000 copies complètes (plus de 80% de reproduction de l’article original) ont été trouvées sur 75.000 sites. 163.000 copies supplémentaires présentaient plus de 125 mots copiés. Un article pouvait être réutilisé jusqu’à 15 fois, en moyenne 4,4 fois, et plus de 53% des 250 millions de dollars de revenus publicitaires générés par ces copies étaient perçus via Google..

Là dessus, j’ai deux commentaires.
Premièrement, sur les 125 mots de contenus copiés. Cela peut sembler « énorme » (une demie-page de texte), mais tout dépend aussi de l’article final. Nombre de mes articles font plus de 1.000 mots. 10% de texte copié, surtout si les phrases ne sont pas consécutives, rentre dans le cadre de la citation normale. En revanche, l’article que je suis en train de faire comprends beaucoup de contenu « copié mais traduit », alors qu’il n’apparaîtra pas dans les stats de copie pure et dure.

Deuxièmement, sur le rôle ambigu de Google, qui lutte d’un côté contre la copie (légale ou pas) via sa chasse au duplicate content, mais qui en tire de juteux revenus d’autre part.

Préserver son chiffre d’affaires : les distributeurs de contenu agissent

Quelle conclusion ?
Toujours selon Attributor, la valeur « faciale » de revenus perdus par les agences de news est de l’ordre de 40% de leur chiffre d’affaires. En pratique, en éliminant les petits blogueurs et les copieurs accidentels, la valeur réellement perdue est de l’ordre de 10%.
Ce qui est énorme.

Et l’AFP passe à l’acte, le suivi statistique de leur contenu copié leur permettant de déceler facilement les gros copieurs et d’enclencher directement sur une démarche « négociation ou poursuites ».

La copie non autorisée c’est du vol

10% du chiffre d’affaires pour une entreprise, cela peut être la différence entre le profit et la perte.

Il faut aussi aller plus loin, car dans la perte de chiffre d’affaires, Attributor ne prend en compte que celle subie par les agences de presse.
Maintenant qu’en est il de la perte de revenus publicitaires subie par les sites qui utilisent légalement les dépêches de l’AFP et se voient déclassés pour duplicate content par des sites qui eux, ne supportent pas les coûts d’abonnement ?

Ou dans d’autres domaines que ceux de la presse, plus proches des miens par exemple, les entreprises qui perdent en positionnement, donc en visiteurs et en client, alors qu’elles ont investi dans des textes originaux, et que ces textes sont repris à l’identique par des concurrents ? Lesquels, grâce à des techniques de spam (création automatique de blogs, leech de flux rss) arrivent à produire à une vitesse faramineuse « contenu » et liens ?

La copie et l’utilisation : le spin de contenu

Le spinning est une technique qui permet, grâce à une base de synonymes, de générer automatiquement de multiples versions d’un texte de base.

Bien que les légendes urbaines affirment que Google le détecte, et comprenne suffisamment bien les synonymes pour repérer ces contenus, ils ne sont pas identifiables par le webmaster de base (ie des programmes comme Copyscape ne les détectent pas).
Connaissant un peu des webmasters qui en utilisent, je suis prête à parier que les 275.000 copies détectées par Attributor sont en réalité au moins 400.000

C’est la course entre le gendarme et le voleur, mais elle devient assez difficile.
Un contenu « bêtement spinné » pourrait encore être détectable, sur la base d’utilisation de dictionnaires. Un contenu intelligemment spinné devient extrêmement complexe à déceler automatiquement, car les combinaisons possibles deviennent trop nombreuse.

Il reste cependant du plagiat, et il y a eu des procès (dans le domaine du plagiat classique, celui du livre papier) où de tels jeux sur des synonymes ont été reconnus comme du plagiat.
D’un point de vue pur SEO, il est moins dommageable.

Le ras le bol des webmasters

Qu’on soit gros fournisseur de contenu professionnel, ou petit webmaster, le fait est là : le vol de contenu est dommageable, et il pourrit le web.
Des solutions de plus en plus nombreuses existent. Et je participe pour l’instant à un projet, dont je vous parlerai dès qu’il sera un peu plus abouti, qui pourra être un levier très intéressant pour la lutte contre le vol de contenu.

1 commentaire

  1. Cédric (Aube Nature) Auteur mars 17, 2010 (10:31 )

    Un excellent article Marie-Aude (qui sera relayé bien entendu !)

    C’est l’une des raisons pour lesquelles mes flux RSS sont tronqués, mes images sont marquées, et tutti quanti… Au détriment des utilisateurs honnêtes, mais il fut un temps où je retrouvais mes articles dans leur intégralité dans des pseudo sites qui reprenaient totalement mon contenu et l’agrégeaient avec celui d’autres blogs !

    Je ne connaissais pas le spinning, en tout cas je ne pensais pas que ça pouvait être utilisé à un rythme « industriel »…

    Répondre à Cédric (Aube Nature)

Commenter

*

*

*Informations requises Merci de donner les informations requises

VotreNom@VotreMotClé, à utiliser avec tact et modération ! ( De toute façon, les spammeurs sont blacklistés )