Face au pillage des sites web par les géants de l'IA, la fronde s'organise

De nombreux sites, à l'image du réseau social Reddit, ne veulent plus que les entreprises de l'intelligence artificielle pillent leurs données sans rien offrir en contrepartie. Alors ils tentent de bloquer les robots chargés d'aspirer leur contenu, une tâche plus difficile qu'il n'y paraît.

François Manens

02 Août 2024, 17:41

Les sites tentent de se protéger contre les robots scrapper de OpenAI et Anthropic. (Crédits : DR)

La gronde contre les géants de l'intelligence artificielle s'intensifie. En cause : OpenAI, Anthropic, Google et bien d'autres aspirent en continu les textes des millions de pages web, sans trop se soucier de l'avis de leurs propriétaires. La raison ? Les grands modèles d'IA qu'ils développent ont besoin de volumes de données toujours plus grands afin de produire des résultats toujours plus performants. Des articles de presse, aux recettes de cuisine, en passant par les sous-titres des vidéos YouTube, tout y passe : les ingénieurs font ingurgiter aux IA du contenu trouvé aux quatre coins d'Internet.

Mais les propriétaires de sites web sont de plus en plus nombreux à tenter d'arrêter ce pillage, d'autant plus que certains parviennent à tirer des millions d'euros dans le cadre d'accords officiels, à l'image de ceux du Monde avec OpenAI ou de Google avec le réseau social Reddit. Empêcher l'aspiration systématique des données passe par le blocage des robots scraper qu'utilisent les géants de l'IA. Ces petits programmes informatiques automatisés parcourent le web et téléchargent tout ce qu'ils trouvent. Mais les arrêter n'est pas si simple...

Robot.txt, le panneau d'entrée des sites web

Les chercheurs de la Data Provenance Initiative, un collectif de spécialistes de l'IA, ont récemment publié une étude dans laquelle ils mesurent le nombre de sites qui bloquent expressément les scrapers des entreprises d'IA. Leur constat ? Une augmentation rapide du nombre de restrictions, affichées sur plus de 5% des 14.000 sites web qu'ils ont analysés, et même sur 28% des sources jugées comme « critiques » et « mises à jour régulièrement ».

La restriction prend le plus souvent forme d'une déclaration d'intention affichée sur robots.txt, un fichier texte présent sur la majorité des sites, qui sert de panneau d'entrée aux programmes automatisés. Comme le raconte The Verge, ce fichier n'a pas de valeur légale, et rien n'oblige techniquement les robots à aller le prendre en compte. Il s'agit simplement d'une liste déclarative de quel robot est autorisé ou non à entrer, à destination des autres acteurs du web. « Une mini constitution d'Internet, écrit en code », résume le site américain. À l'origine, le fichier s'adresse surtout aux robots des moteurs de recherche, afin d'officialiser un échange gagnant-gagnant. D'un côté, Google, Bing et consorts accèdent aux données du site pour les rentrer dans leur base de données. En contrepartie, ils référencent le site sur leur outil et dirigent ainsi les visiteurs vers lui. Ce dernier n'a plus qu'à trouver un moyen de monétiser son audience.

Un principe du web remis en cause

En revanche, dans le cas du scraping effectué par les entreprises de l'IA, l'équation paraît à sens unique. OpenAI, Anthropic, Google ou encore Meta bâtissent grâce aux sites web des gigantesques jeux de données pour entraîner leurs modèles, sans rien offrir en échange. Ils sont les seuls à profiter financièrement de la manœuvre. C'est pourquoi plusieurs sites web n'hésitent pas à écrire sur robots.txt, leur panneau d'entrée, une interdiction pour les robots des entreprises du web.

Problème : cette mesure s'avère particulièrement limitée. Pour commencer, la liste des robots évolue sans cesse. Si le robot-scrapper d'OpenAI, GPTBot, est bien connu après que l'entreprise a fait un tutoriel à destination de ceux qui voudraient le bloquer, ce n'est pas le cas de bien d'autres, même ceux de grandes entreprises. Ensuite, rien n'empêche les entreprises de l'IA d'ordonner à leurs programmes d'ignorer les panneaux, sans véritable crainte de répercussions. C'est par exemple le cas de Perplexity, une startup qui développe un moteur de recherche aux réponses générées par l'IA, comme l'a révélé une enquête Wired. Son dirigeant Aravind Srinivas s'est défendu de scraper les sites non-consentants en rappelant que les fichiers robots.txt n'ont aucune valeur légale.

C'est pourquoi certains sites passent à la vitesse supérieure, en intégrant l'interdiction dans leurs conditions d'utilisation. Le réseau social Reddit, dont les conversations sont très utiles aux modèles d'IA, va encore plus loin. Dans les prochaines semaines, il prévoit de bloquer l'accès à ses pages pour la majorité des robots automatisés, à l'exception de ceux qui ont payé, comme Google et OpenAI. Il compte d'ailleurs faire de l'accès à ses données un des piliers de son modèle économique. Une façon de rétablir par la force une forme d'échange gagnant-gagnant.

Une « crise émergente » sur l'accès aux données

Les chercheurs de la Data Provenance Initiative voient cette situation comme une « crise émergente » pour les entreprises de l'IA, mais aussi pour les chercheurs académiques en IA. « La situation reflète comment les gens essaient de protéger leurs propres gagne-pain », explique Shayne Longpre, un chercheur du MIT, co-auteur du papier, au média 404.

Deux principaux problèmes pointent à l'horizon. D'un côté, les entreprises de l'IA pourraient se retrouver à court de nouveaux contenus à aspirer, ce qui aurait des conséquences sur la progression de leurs modèles d'IA générative. De l'autre, un fossé pourrait se créer entre les sites qui refusent simplement l'accès aux robots et ceux qui parviennent à commercialiser leurs données. Dans les médias par exemple, OpenAI a noué de nombreux partenariats, mais uniquement avec de très grands groupes de presse :The New York Times, Le Monde, Axel Springer ou encore Prisa Media (El Paìs). À ce jeu, ce sont donc les plus gros qui sortent vainqueurs, au risque d'affecter à terme la diversité du web.

Sujets les + lus

Sujets les + commentés

Taxe foncière : cette bonne nouvelle qui attend les propriétaires en 2025

« Nous sommes dans un moment optimal » : pourquoi les fonds euros de l'assurance-vie redeviennent intéressants

Méga-commande en Grande-Bretagne : Airbus Helicopters jette l'éponge

Dassault Aviation va signer d'ici à la fin 2024 un contrat Rafale Marine en Inde

Le grand trou d’air des voitures électriques

Commentaires 5

Dossier 51 à écrit le 03/08/2024 à 6:50

Signaler

43 millions de fiches de français et donc 43 millions de français lésés à cause de pôle emploi, et il y en a tant d'autres, ça fait longtemps que les données personnelles et confidentielles sur le net sont une crise émergée dont ils ne nous parlent p...

Attila à écrit le 02/08/2024 à 20:22

Signaler

C'est comme dans la nature. J'ai l'image du petit poisson qui mange une écrevisse et se fait happer par un poisson plus gros lequel rejoindra son banc, de poissons, qui sera à son tour ingurgité par un prédateur de taille intermédiaire avant le derni...

churchill à écrit le 02/08/2024 à 20:06

Signaler

des videos de chat deguises en pape qui boivent de la biere a oktoberfest, ca n'interesse personne...........a u moment donne, des gens vont se demander a quoi ca sert, mais vu le niveau en maths, c'est penible................halbert white ' artifici...

Le Saint à écrit le 02/08/2024 à 19:41

Signaler

"Robot.txt, le panneau d'entrée des sites web" Une charte de bonne conduite contre le piratage numérique... Une mesure technique aussi ridicule que la nétiquette contre l'ensauvagement des forums informatiques. "Dans les prochaines semaines...

Réponse de CCO18 le 03/08/2024 à 18:56

Signaler

Firewall avec redirection des IP des serveurs concernés vers des pages contenant du texte aléatoire... Dans lequel vous mixez des morceaux de différentes pages. Chaque chapitre est correct, mais le tout est incohérent. Vous allez voir que ceux qui n...

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Informatique

Face au pillage des sites web par les géants de l'IA, la fronde s'organise

Robot.txt, le panneau d'entrée des sites web

Un principe du web remis en cause

Une « crise émergente » sur l'accès aux données

Newsletter - Tech & Médias