Guillaume Cabanac est professeur d’informatique à l’Université de Toulouse et membre de l’Institut universitaire de France. Avec son « collège invisible », constitué d’une centaine de personnes, des scientifiques mais aussi de nombreux amateurs, il pourchasse les fraudes scientifiques. Son travail de dépollution lui a valu d’être distingué par la revue Nature comme un des dix scientifiques de l’année 2021. Benoît Tonson, chef de rubrique Science à The Conversation France, l’a rencontré.
The Conversation : Comment avez-vous démarré votre travail d’enquêteur scientifique ?
Guillaume Cabanac : La littérature scientifique est mon objet de recherche, car c’est un corpus passionnant à étudier, riche en données de différentes natures : du texte, des liens de citations, des dates, des affiliations, des personnes… Par ailleurs, ce corpus est évolutif puisque, tous les jours, 15 000 nouveaux articles scientifiques sont publiés de par le monde.
Initialement, ce n’était pas la fraude qui m’intéressait, mais plutôt l’erreur en science. J’ai entrepris de traquer les méconduites en sciences au contact de Cyril Labbé, professeur d’informatique à l’Université de Grenoble-Alpes. J’avais lu un de ses articles qui avait fait grand bruit. Dans cet article, il racontait qu’il avait créé un faux profil sur Google Scholar (le moteur de recherche spécialisé de Google qui permet de rechercher des articles scientifiques). Un certain Ike Antkare (comprendre “I can’t care”, ou « Je ne peux pas m’en soucier » en français). Avec ce profil, il avait créé de faux articles à l’aide d’un logiciel SCIgen de génération de texte, un ancêtre des IA génératives si l’on veut. C’est un programme qui se fonde sur une grammaire probabiliste hors contexte. Cela signifie qu’il perd la mémoire d’une phrase à l’autre. Il va écrire des phrases, qui prises indépendamment ont du sens,…
Auteur: Guillaume Cabanac, Professor of Computer Science, Institut de Recherche en Informatique de Toulouse

