La gronde contre les géants de l'intelligence artificielle s'intensifie. En cause : OpenAI, Anthropic, Google et bien d'autres aspirent en continu les textes des millions de pages web, sans trop se soucier de l'avis de leurs propriétaires. La raison ? Les grands modèles d'IA qu'ils développent ont besoin de volumes de données toujours plus grands afin de produire des résultats toujours plus performants. Des articles de presse, aux recettes de cuisine, en passant par les sous-titres des vidéos YouTube, tout y passe : les ingénieurs font ingurgiter aux IA du contenu trouvé aux quatre coins d'Internet.
Mais les propriétaires de sites web sont de plus en plus nombreux à tenter d'arrêter ce pillage, d'autant plus que certains parviennent à tirer des millions d'euros dans le cadre d'accords officiels, à l'image de ceux du Monde avec OpenAI ou de Google avec le réseau social Reddit. Empêcher l'aspiration systématique des données passe par le blocage des robots scraper qu'utilisent les géants de l'IA. Ces petits programmes informatiques automatisés parcourent le web et téléchargent tout ce qu'ils trouvent. Mais les arrêter n'est pas si simple...
Robot.txt, le panneau d'entrée des sites web
Les chercheurs de la Data Provenance Initiative, un collectif de spécialistes de l'IA, ont récemment publié une étude dans laquelle ils mesurent le nombre de sites qui bloquent expressément les scrapers des entreprises d'IA. Leur constat ? Une augmentation rapide du nombre de restrictions, affichées sur plus de 5% des 14.000 sites web qu'ils ont analysés, et même sur 28% des sources jugées comme « critiques » et « mises à jour régulièrement ».
La restriction prend le plus souvent forme d'une déclaration d'intention affichée sur robots.txt, un fichier texte présent sur la majorité des sites, qui sert de panneau d'entrée aux programmes automatisés. Comme le raconte The Verge, ce fichier n'a pas de valeur légale, et rien n'oblige techniquement les robots à aller le prendre en compte. Il s'agit simplement d'une liste déclarative de quel robot est autorisé ou non à entrer, à destination des autres acteurs du web. « Une mini constitution d'Internet, écrit en code », résume le site américain. À l'origine, le fichier s'adresse surtout aux robots des moteurs de recherche, afin d'officialiser un échange gagnant-gagnant. D'un côté, Google, Bing et consorts accèdent aux données du site pour les rentrer dans leur base de données. En contrepartie, ils référencent le site sur leur outil et dirigent ainsi les visiteurs vers lui. Ce dernier n'a plus qu'à trouver un moyen de monétiser son audience.
Un principe du web remis en cause
En revanche, dans le cas du scraping effectué par les entreprises de l'IA, l'équation paraît à sens unique. OpenAI, Anthropic, Google ou encore Meta bâtissent grâce aux sites web des gigantesques jeux de données pour entraîner leurs modèles, sans rien offrir en échange. Ils sont les seuls à profiter financièrement de la manœuvre. C'est pourquoi plusieurs sites web n'hésitent pas à écrire sur robots.txt, leur panneau d'entrée, une interdiction pour les robots des entreprises du web.
Problème : cette mesure s'avère particulièrement limitée. Pour commencer, la liste des robots évolue sans cesse. Si le robot-scrapper d'OpenAI, GPTBot, est bien connu après que l'entreprise a fait un tutoriel à destination de ceux qui voudraient le bloquer, ce n'est pas le cas de bien d'autres, même ceux de grandes entreprises. Ensuite, rien n'empêche les entreprises de l'IA d'ordonner à leurs programmes d'ignorer les panneaux, sans véritable crainte de répercussions. C'est par exemple le cas de Perplexity, une startup qui développe un moteur de recherche aux réponses générées par l'IA, comme l'a révélé une enquête Wired. Son dirigeant Aravind Srinivas s'est défendu de scraper les sites non-consentants en rappelant que les fichiers robots.txt n'ont aucune valeur légale.
C'est pourquoi certains sites passent à la vitesse supérieure, en intégrant l'interdiction dans leurs conditions d'utilisation. Le réseau social Reddit, dont les conversations sont très utiles aux modèles d'IA, va encore plus loin. Dans les prochaines semaines, il prévoit de bloquer l'accès à ses pages pour la majorité des robots automatisés, à l'exception de ceux qui ont payé, comme Google et OpenAI. Il compte d'ailleurs faire de l'accès à ses données un des piliers de son modèle économique. Une façon de rétablir par la force une forme d'échange gagnant-gagnant.
Une « crise émergente » sur l'accès aux données
Les chercheurs de la Data Provenance Initiative voient cette situation comme une « crise émergente » pour les entreprises de l'IA, mais aussi pour les chercheurs académiques en IA. « La situation reflète comment les gens essaient de protéger leurs propres gagne-pain », explique Shayne Longpre, un chercheur du MIT, co-auteur du papier, au média 404.
Deux principaux problèmes pointent à l'horizon. D'un côté, les entreprises de l'IA pourraient se retrouver à court de nouveaux contenus à aspirer, ce qui aurait des conséquences sur la progression de leurs modèles d'IA générative. De l'autre, un fossé pourrait se créer entre les sites qui refusent simplement l'accès aux robots et ceux qui parviennent à commercialiser leurs données. Dans les médias par exemple, OpenAI a noué de nombreux partenariats, mais uniquement avec de très grands groupes de presse :The New York Times, Le Monde, Axel Springer ou encore Prisa Media (El Paìs). À ce jeu, ce sont donc les plus gros qui sortent vainqueurs, au risque d'affecter à terme la diversité du web.
Sujets les + commentés