Quand les IA s’attaquent à nos accents

Juin 2022, l’entreprise SANAS annonce avoir récolté 32 millions de dollars pour la création d’une technologie basée sur l’intelligence artificielle dont l’objectif est de supprimer les accents. Septembre 2022, la plate-forme voit le jour non sans créer intérêt, curiosité et émoi tant dans le monde anglophone que francophone.

De tels logiciels nous plongent dans une dystopie contemporaine où la technologie vient faire disparaître les différences, les marqueurs de l’identité et les cultures des individus. Cette idée n’est pourtant pas nouvelle : le film « Sorry to bother you » sorti en 2018 abordait déjà la question de l’accent des populations africaines-américaines dans une satire sur les centres d’appel.

Bande-annonce du film « Sorry to Bother You ». Source : Universal Pictures France.

Alors comment peut-on réellement supprimer un accent ? Entre utopie et dystopie, pourquoi développer une intelligence artificielle capable de « supprimer » les accents peut-il être un problème plus qu’une solution ? Que supprime-t-on de plus qu’une marque sonore en neutralisant un accent ?

Comment l’intelligence artificielle peut faire taire un accent

L’accent peut être défini comme un faisceau d’indices souvent oraux (les voyelles, les consonnes, l’intonation, etc.) qui participe à l’élaboration plus ou moins conscience d’hypothèses sur l’origine géographique, sociale ou langagière des individus. Cet accent peut être dit, entre autres, « régional » ou « étranger » en renvoyant à des imaginaires différents. La pertinence de l’identification d’un accent réside dans le fait qu’un certain nombre de caractéristiques sonores semblent homogènes chez des locuteurs d’une langue, d’une zone géographique ou d’un groupe social, comme le souligne Philippe Boula de Mareüil.

Ces technologies issues de start-up constituent souvent une boite noire et peu d’informations concrètes sur les outils employés pour « supprimer » l’accent sont disponibles. Toutefois, les moyens sont multiples et ils visent principalement à transformer en partie la structure de l’onde sonore afin de rapprocher certains indices acoustiques vers une norme perceptivement déterminée. On pourra ainsi jouer sur le timbre de certaines voyelles, la réalisation de consonnes ou encore transformer des paramètres comment le rythme, l’intonation ou l’accentuation en fonction de cibles perceptives attendues. Dans le même temps, on maintiendra un maximum de paramètres vocaux permettant d’identifier la voix du locuteur initial à l’image du voice cloning pouvant conduire à des arnaques au deepfake vocal. Ces technologies permettent de dissocier ce qui est de l’ordre de la parole de ce qui tient à la voix.

Le traitement automatique et en temps réel de la parole pose des difficultés technologiques dont la principale réside dans la qualité du signal sonore à traiter. Néanmoins, il existe différentes solutions en s’appuyant sur le deep learning et les réseaux de neurones, ainsi que les grands corpus de parole, qui permettent de mieux gérer les incertitudes dans le signal.

Dans le cas des langues étrangères, Sylvain Detey, Lionel Fontan et Thomas Pellegrini repèrent quelques enjeux inhérents au développement de ces technologies, à savoir quelle norme retenir pour mener une comparaison avec ce qui est attendu, ou encore le rôle que peuvent avoir les corpus dans la détermination de ces objectifs – sans qu’il se dégage pour le moment de réponses particulièrement prometteuses.

Le mythe de l’accent neutre

Cependant, l’identification d’un accent ne se limite pas aux seuls indices acoustiques. Donald L. Rubin a pu démontrer que des auditeurs peuvent recréer l’impression d’un accent perçu simplement en associant aux voix des visages aux origines supposées différentes. De la même manière, en l’absence de ces autres indices, les locuteurs ne sont pas si bons dans leur capacité à reconnaître des accents qu’ils n’entendent pas régulièrement ou qu’ils se représentent de manière stéréotypée, par exemple l’idée selon laquelle il y aurait beaucoup de consonnes en allemand.

Vouloir supprimer les accents pour contrer les effets sociaux d’une discrimination sur l’accent revient à poser la question…

La suite est à lire sur: theconversation.com
Auteur: Grégory Miras, Professeur des Universités en didactique des langues, Université de Lorraine