Beau parleur comme une IA

Les intelligences artificielles apprennent à parler grâce aux « modèles de langage ». Les modèles les plus simples permettent la fonction d’autocomplétion sur le smartphone : ils proposent le mot suivant. Mais les prouesses et les progrès des modèles de langage les plus modernes tels que GPT-3, LaMDA, PaLM ou ChatGPT sont époustouflants, avec par exemple des programmes informatiques capables d’écrire dans le style d’un poète donné, de simuler des personnes décédées, d’expliquer des blagues, traduire des langues, et même produire et corriger le code informatique – ce qui aurait été impensable il y a quelques mois à peine. Pour faire cela, les modèles se basent sur des modèles de neurones de plus en plus complexes.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Quand les intelligences artificielles parlent à tort et à travers

Ceci dit, les modèles sont plus superficiels que ces exemples nous font croire. Nous avons comparé les histoires générées par des modèles de langage à des histoires écrites par des humains et constaté qu’elles étaient moins cohérentes, mais engageantes, et moins surprenantes que les histoires écrites par les humains.

Plus important encore, nous pouvons montrer que les modèles de langage actuels ont des problèmes même avec des tâches de raisonnement simples. Par exemple, lorsque nous demandons :

« L’avocat a rendu visite au médecin ; le médecin a-t-il rendu visite à l’avocat ? »

… les modèles de langage simples ont tendance à dire oui. GPT3 répond même que l’avocat n’a pas rendu visite au médecin. Une raison possible que nous sommes en train d’explorer est que ces modèles de langage encodent les positions des mots de manière symétrique, et donc ils ne font pas la distinction entre « avant le verbe » et « après le verbe », ce qui complique la distinction du sujet et de l’objet dans une phrase.

De plus, les limites théoriques des modèles de langage basés sur les « transformateurs » signifient qu’ils ne peuvent pas distinguer les séquences paires et impaires d’un certain élément, si celles-ci sont intercalées avec un autre élément. En pratique, cela signifie que les modèles ne peuvent pas résoudre une tâche que nous appelons la « tâche pizza » – une simple énigme de la forme :

« La lumière est éteinte. J’appuie sur l’interrupteur d’éclairage. Je mange une pizza. J’appuie sur l’interrupteur d’éclairage. La lumière est-elle allumée ? »

Ici, une séquence paire d’interrupteurs d’éclairage signifie que la lumière est éteinte, mais un modèle BERT n’arrive pas à l’apprendre. Les modèles les plus puissants actuellement (GPT-3 et chatGPT) refusent catégoriquement de conclure que la lumière est éteinte.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Les modèles de langage d’aujourd’hui ont également des difficultés avec la négation, et réussissent généralement mal les tâches de raisonnement dès que celles-ci sont plus complexes. Par exemple, considérons l’énigme suivante de l’examen national des fonctionnaires de Chine :

« David connaît l’ami de M. Zhang, Jack, et Jack connaît l’amie de David, Mme Lin. Tous ceux qui connaissent Jack ont une maîtrise, et tous ceux qui connaissent Mme Lin sont de Shanghai. Qui est de Shanghai et a une maîtrise ? »

Les modèles actuels ne répondent correctement que dans 45 % des cas et chatGPT refuse de répondre… alors que la meilleure performance humaine est de 96 %.

Le modèle ne sait pas qu’il ne sait pas

Très probablement, le principal inconvénient des modèles de langage actuels est qu’ils sont faits pour faire des analogies, mais pas pour mémoriser exactement un ensemble trop grand. Par exemple, ils ne peuvent pas se souvenir d’une liste d’un million de clients ou d’un ensemble de dix mille protéines. Le modèle, à sa propre discrétion, oubliera certains des articles. Un problème encore plus important est qu’il peut aussi, encore une fois à sa propre discrétion, inventer de nouveaux éléments (un processus appelé à juste titre « hallucination »). Cela est une conséquence fondamentale des techniques…

La suite est à lire sur: theconversation.com
Auteur: Fabian Suchanek, Professeur en informatique, Télécom Paris – Institut Mines-Télécom