Un jour, j’ai entendu parler sur Twitter du site Articoolo, qui écrit des articles automatiquement à partir de 2 à 5 mots clés que vous lui fournissez. Le prix? Pas plus de 0,39 $ (33 centimes d’euro) pour un article de 450 mots environ. Soit environ 16 centimes… le feuillet. Seize-centimes-le-feuillet.
Pour tester le service, j’ai entré les mots “worst US president ever” dans le moteur du site. Je voulais savoir si, pour ce prix dérisoire, j’aurais droit à un article de qualité au sujet des pires présidents américains de l’histoire.
Voici l’article obtenu pour 39 cents (il fait 2 500 signes, soit 1,6 feuillet, soit 21 centimes le feuillet) :
Le résultat m’a paru étonnamment correct, vu le prix. Mais n’y avait-il pas anguille sous roche? D’où venaient les ressources qui ont permis “l’écriture automatique” de cet article?
Pour en avoir le coeur net, j’ai entré dans Google le bout de phrase “turned bad times in good times, including a 14 percent Gross domestic product growth rate in 1922”.
Bingo : la phrase se retrouve à l’identique sur le site NationalInterest.org :
Articoolo fonctionne donc en puisant de ci, de là des bouts de phrases sur des sites Internet, notamment des sites de presse, et en les agrégeant pour fournir des articles “automatiquement”.
Le choix de sélectionner uniquement un bout de phrase pour la recherche Google s’est avéré pertinent, puisqu’il a permis de lever un autre lièvre.
En fait, c’est un paragraphe entier qui a été plagié, mais des termes ont été remplacés par des synonymes, ce qui rendait la recherche du plagiat plus difficile (il suffit d’un seul mot différent pour qu’une recherche Google “entre guillemets”, c’est-à-dire demandant des résultats correspondant mot pour mot à la recherche, ne retourne aucun résultat, et rendre ainsi le plagiat indétectable.)
Voici donc le paragraphe original :
… Et la version d’Articoolo du paragraphe ci-dessus, avec en rouge les mots qui ont été modifiés :
Notons que Articolo pousse le cynisme jusqu’à proposer un bouton pour vérifier si le texte proposé a été… plagié :
Mais, lorsqu’on clique sur ce bouton, on ne tombe en fait que sur un site de correction grammaticale, Grammarly :
Ce bouton ne semble être là que pour rassurer les clients d’Articoolo, sur le thème : “s’ils mettent un bouton pour que nous puissions vérifier si le texte vendu est un plagiat, c’est que ce n’est sûrement pas un plagiat, sinon ils n’auraient pas mis ce bouton.” Articoolo a dû parier que les gens ne cliqueraient pas sur ce bouton, sa seule présence étant sans doute suffisante pour les rassurer.
On se demande d’ailleurs pourquoi à quoi sert ce bouton, puisque la société explique très sérieusement qu’aucun plagiat n’est possible :
(“Notre solution vous fournira un contenu textuel absolument unique. Pas de duplication ou de plagiat. Complètement unique. Vous n’avez plus à vous soucier des droits liés aux contenus parce qu’il n’y a pas de possibilité de plagiat.”)
Reste que le modèle d’affaires de l’entreprise ne semble pas fondé sur des accords avec des ayant-droit qui lui permettraient d’utiliser (et de modifier, au mépris du droit moral des auteurs) des articles et des textes (à l’heure de la publication de ce texte, le site plagié, NationalInterst.org, n’a pas pu répondre à notre mail pour savoir si ses droits avaient été cédés; Articoolo n’a pas pu non plus répondre à notre mail).
Le modèle d’affaires est fondé sur l’exploitation des “meilleures ressources”, lesquelles sont ensuite retravaillées et restructurées. Mais à aucun moment, la société n’indique quelles sont ces “ressources”.
(“Le créateur de contenu de Articoolo travaille comme l’esprit humain quand on lui demande d’écrire un article. D’abord, il va analyser et comprendre le contexte de votre sujet. Par exemple, si vous voulez écrire un article à propos de la “variété des appareils Apple”, l’algorithme comprendra d’abord que “Apple” dans ce contexte est le nom d’une entreprise, et pas un fruit. Après avoir compris le contexte de votre sujet, il va chercher les meilleures bases de ressources et en extraire les opinions et les mots-clés importants. Le logiciel va ensuite trouver du contenu connexe, grâce aux opinions et aux principaux mots clés, et va tout reconstruire en un seul texte cohérent. Ensuite, il va réécrire le texte en utilisant le moteur NLP pour une identification sémantique multi-niveaux et vérifier sa lisibilité”.)
Ce cas de plagiat industriel illustre à quel point la directive européenne sur le droit d’auteur est indispensable. Les textes de journalistes, d’auteures et d’auteurs risquent de plus en plus d’être traités comme du “minerai d’info”, comme on parlait il y a quelques années du “minerai de viande”, à partir duquel on a fabriqué des magmas alimentaires de qualité douteuse. Sans filet de protection juridique autour de ces textes et oeuvres, comment se protéger juridiquement face à ces atteintes?
Ici, il aurait fallu que la ou le journaliste “googlise” des dizaines de bouts de textes du texte d’Articoolo, pour s’apercevoir qu’ils proviennent de son article.
Dans l’autre sens, il faudrait qu’un ou une journaliste passe son temps à googliser des dizaines d’extraits de ses textes pour vérifier si ses articles ont été plagiés ou non. A ceci près que puisque des sites comme Articoolo sont des “machines automatiques”, leurs plagiats ne se retrouvent pas en ligne, mais dans des serveurs en attendant d’être moulinés. Et que ces plagiats sont donc indétectables tant qu’ils n’ont pas été moulinés puis livrés au client.
Ensuite, il faut que la ou le journaliste porte plainte et demande des dommages et intérêt pour un produit qui, pour un seul article, est vendu… 0,39 dollar.
Enfin, il faut gagner le procès, et nul doute que Articolo tentera de faire valoir que dans la mesure où des mots ont été modifiés, le plagiat peut être considéré comme n’étant pas constitué. Autant dire qu’il n’y a aucune chance pour qu’une action en justice ait lieu.
Seule une action menée par un éditeur peut avoir une chance d’aboutir, car un éditeur peut faire valoir que son préjudice ne se limite pas à 0,39 dollar, mais, potentiellement, à des milliers de dollars.
D’une manière générale, les sites d’info et surtout les sites d’information indépendants sont rarement rentables. Tant que les contenus journalistiques seront en ligne gratuitement et/ou facilement accessibles, et dépourvus de “filet de protection juridique”, ils courent non seulement le risque d’être pillés, mais aussi “remixés” et transformés en “minerai d’info”, ce qui rend les plagiats et leur monétisation difficilement détectables et mesurables.
Passons sur le fait que les textes de presse sont déjà considérés comme du “minerai d’info” par des entreprises qui les utilisent pour créer des études ou des revues de presse aux entreprises. Selon un rapport du ministère de la Culture, “une étude du cabinet Kurt Salmon évalue à 163 millions d’euros le marché des ventes de panoramas de presse. Sur ce marché les éditeurs de presse ne capteraient que 13 % de la valeur créée.”
Avec le développement de l’IA et la sophistication croissante de techniques de “reformulation de contenus existants”, des textes et des oeuvres créés par des auteures et des auteurs souvent sous-payés sont revendus à prix d’or à des entreprises richissimes.
Avec, à terme, une perte totale de contrôle des créateurs de contenus sur la façon dont sont “retraitées” et revendues leurs créations. Certes, la directive européenne actuellement en discussion est perfectible, puisque les incertitudes sur l’impact des article 11 et 13 n’ont pas encore été levées, et que la question de la part reversée par les éditeurs aux auteurs n’est pas encore réglée.
Mais seule une protection juridique globale peut permettre d’agir pour réparer les préjudices du pillage et du “remix sauvage” et tenter d’y mettre un terme.
Laurent Calixte (article également paru sur Medium.)