Pourquoi les IA risquent de produire de plus en plus de charabia et d'images étranges

Les IA se nourrissent du Web, qui est envahi de contenus créés par les IA elles-mêmes. À long terme, cette autophagie pourrait aboutir à la production de contenus absurdes et de piètre qualité. C'est ce que démontre une étude publiée le 24 juillet dans la revue scientifique Nature.

Marine Protais

25 Juill 2024, 16:47

Si on demande à une IA de représenter un chien, le modèle produira plus d'images de golden retrievers, car ce sont les chiens les plus représentés dans les banques d'images. (Crédits : Image générée par IA avec Canva)

Trop d'intelligence artificielle tue l'intelligence artificielle. Ainsi pourrait-on résumer (grossièrement) le concept de "model collapse" (en français l'effondrement des modèles). Ce phénomène, qui inquiète régulièrement l'industrie depuis quelques mois, vient d'être validé scientifiquement dans la revue Nature. Une étude publiée le 24 juillet démontre que si les modèles d'intelligence artificielle générative sont nourris avec trop de données produites elles-mêmes par des IA, ils finissent par produire du charabia et des images absurdes. Le problème concerne à la fois les grands modèles de langage (LLM) comme GPT-4 d'OpenAI ou Claude d'Anthropic, et les générateurs d'images tels que Stable Diffusion, Midjourney ou DALL-E.

Comment cette dégénérescence s'opère ? Pour comprendre le processus, il faut rappeler que les modèles d'IA produisent du contenu de manière probabiliste. Et ils ont tendance à sur-représenter les images ou les mots fréquents, et à sous-estimer ceux qui sont moins récurrents. Ce problème s'amplifie au fur et à mesure. Imaginez que l'on demande à une IA de représenter un chien. Le modèle produira plus d'images de golden retrievers, car ce sont les chiens les plus représentés dans les banques d'images, et moins de dalmatiens ou d'autres races moins répandues. Si ensuite ce même modèle est entraîné sur les images qu'il a produites, il représentera encore plus de golden retrievers. C'est la première étape de l'effondrement. Les chercheurs l'appellent « la perte de variance ». Et au fur et à mesure des entraînements, le modèle produit des golden retrievers à l'anatomie aléatoire, expliquent les chercheurs canadiens et britanniques à l'origine de l'étude. Car en plus de sur-représenter certaines races, l'IA introduit des erreurs.

Les IA ont tendance à sur-représenter certains contenus

« Les modèles perdent de leur utilité parce qu'ils sont submergés par toutes les erreurs et les idées fausses introduites par les générations précédentes des modèles », explique au Financial Times Ilia Shumailov, chercheur en informatique à l'Université d'Oxford, qui a mené ces travaux. Le phénomène est comparable à copier à l'aide d'une imprimante une image elle-même scannée puis imprimée. Au fur et à mesure des copies, l'image sera de plus en plus sombre.

Par ailleurs, ce processus de dégradation est rapide, estiment les chercheurs. Au bout de 9 générations de modèles entraînés sur des données synthétiques, les résultats deviennent totalement absurdes, démontrent les chercheurs.

Les auteurs estiment que ce problème doit être pris « au sérieux ». Pourquoi ? Parce que l'utilisation de données synthétiques -le nom donné aux contenus produits par IA- est de plus en plus courant dans l'industrie. D'une part parce que le web est lui-même alimenté par des textes et des images produites par IA, et qu'il sert de base d'entraînement aux grands modèles. Et d'autre part, parce que les entreprises, OpenAI et d'autres, utilisent sciemment des set de données synthétiques.

Ces données artificielles peuvent toutefois s'avérer très utiles si elles sont produites de manière contrôlée, dans un but spécifique. Certaines entreprises, comme Qbits Pharmaceuticals, font même des données synthétiques une valeur ajoutée. Dans ce cas précis, Qbits Pharmaceuticals utilise des données moléculaires produites par IA pour entraîner ses modèles et trouver de nouveaux traitements. Les données synthétiques pouvant nuire à la qualité des modèles sont plutôt celles que l'on trouve majoritairement sur le Web - des faux sites entièrement écrits par ChatGPT, par exemple.

On ne sait pas encore bien distinguer les données humaines des données synthétiques

Pour contourner le problème, il faudrait pouvoir être capable de distinguer les contenus produits par les humains des contenus des IA. Pour le moment les ingénieurs butent sur ce problème. En juillet dernier, OpenAI a fermé son outil AIClassifier, préposé à cette mission, car il n'était pas assez précis.

Cela signifie que les données « humaines » vont prendre encore plus de valeur, estiment les chercheurs. D'autant que le cadre légal et la méfiance des utilisateurs et des producteurs de contenu vis-à-vis de l'IA, risquent de compliquer leur collecte pour l'industrie. Comme en témoignent les récents déboires de Meta, obligé d'abandonner la collecte des données des utilisateurs européens afin d'entraîner ses IA, pour suspicion de non conformité au Règlement général de la protection des données.

Autre élément intéressant : les chercheurs notent que les premiers venus de l'industrie pourraient avoir un avantage, car leurs premiers modèles ont été entraînés sur un Web pré-IA, donc davantage représentatif de la réalité.

Sujets les + lus

Sujets les + commentés

« Le tourisme en Corse est broyé par les dysfonctionnements » (César Filippi, GHR)

Les espoirs serbes du Rafale de Dassault Aviation

Nouvelle-Calédonie : le plus important bailleur social de l’île proche de la faillite

Yann Barthès : « Nous allons arrêter d’inviter des politiques »

SFR : plombé par la perte de ses abonnés, l'opérateur voit son activité reculer

Commentaires 9

калинка калинка моя à écrit le 27/07/2024 à 17:22

Signaler

Il fut un temps où seule une petite partie de la population était en mesure, sinon en droit, de laisser une trace écrite susceptible d'être conservée utilement pour le reste des humains. Avec un peu de recul on se rend compte que ces happy few (quelq...

Photo73 à écrit le 26/07/2024 à 18:40

Signaler

"la production de contenus absurdes et de piètre qualité" mais étant devenus 'idiots' ça ne nous surprendra pas, si l'Intelligence le dit, c'est peut-être pas faux... :-) L'IA utilise-t-elle souvent abracadabrantesque comme Raimbaud l'a fait (repris...

La tourterelle bourée à écrit le 26/07/2024 à 14:33

Signaler

Ils redécouvrent les joies de la monoculture et de l’ethnocide ! Quelques mois d'IA en quasi roue libre pour admettre que notre civilisation, depuis 2 siècles, à force de contraindre tous aux mêmes causes, aux mêmes effets, aux mêmes produits, aux m...

helios à écrit le 26/07/2024 à 8:14

Signaler

avec l'I A c'est le role de l'accademie francaise qui risque d'ertre marginalise voir de disparaitre et la aussi le role d'une grande partie des gens de gauche et surtout le monde du spectacle qui joue les hypocrite

Réponse de Marginal le 29/07/2024 à 10:36

Signaler

Déjà faite la marginalisation : les académiciens écrivent "académie" avec un seul "c". Quant aux non académiciens...

Dossier 51 à écrit le 26/07/2024 à 7:49

Signaler

Un article très intéressant qui expose que nous sommes encore vraiment très loin d'une quelconque intelligence dont ils ne veulent pas.

Asimon à écrit le 25/07/2024 à 18:48

Signaler

C'est sûr que ça va faire du bruit, quand la bulle va éclater.

Christophe-34000 à écrit le 25/07/2024 à 18:07

Signaler

En matière de propos et de discours absurdes, la plupart des membres des gouvernements Macron successifs et une bonne partie de nos élus et édiles nationaux semblent en "pole position" et ont largement fait leurs preuves. C'est à croire qu'ils font ...

Bah à écrit le 25/07/2024 à 17:48

Signaler

La virtualisation tout azimut, avec la dépendance au smartphone, nous construit les zombies de demain !

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Informatique

Pourquoi les IA risquent de produire de plus en plus de charabia et d'images étranges

Les IA ont tendance à sur-représenter certains contenus

On ne sait pas encore bien distinguer les données humaines des données synthétiques

Newsletter - Tech & Médias