Emmanuel Macron conspire contre un opposant politique en Guinée ? Attention à cet audio généré par intelligence artificielle

Un enregistrement indûment attribué à Emmanuel Macron, dans lequel ce dernier s'adresserait à Mamady Doumbouya, chef de la junte militaire au pouvoir en Guinée, circule depuis plusieurs semaines sur les réseaux sociaux. On y entend une voix, semblable à celle du président français, invitant le chef d'Etat guinéen à préparer un plan pour "inculper" son principal opposant politique, Cellou Dalein Diallo. Mais cet enregistrement est un faux. Selon plusieurs experts interrogés par l'AFP, celui-ci a en fait été généré par intelligence artificielle.

Rythme, absence de respiration, incohérences... Une bande son publiée le 19 juin dernier et partagée plus de 1.600 fois sur Facebook prétend divulguer un message d'Emmanuel Macron destiné au chef de la junte au pouvoir en Guinée, le colonel Mamady Doumbouya. Dans cet enregistrement, légendé "Audio entre Emmanuel Macron et Mamadi Doumbouya  à propos de Cellou Dalein Diallo", le chef d'Etat français évoque, entre autres, un "deal" avec Mamady Doumbouya qui risquerait de prendre fin en cas de retour sur la scène politique de Cellou Dalein Diallo, ancien Premier ministre et candidat malheureux aux présidentielles de 2010, 2015 et 2020. Emmanuel Macron enjoint ainsi le colonel Doumbouya de s'assurer "d'avoir quelque chose pour l'inculper (Cellou Diallo, NDLR) dès son arrivée (sur le territoire guinéen, NDLR)".

Ancienne colonie française, la Guinée a obtenu son indépendance en 1958. Depuis septembre 2021, et le coup d'Etat qui a renversé le président Alpha Condé, le pays est gouverné par une junte militaire menée par le colonel Mamady Doumbouya. Suspecté de détournements de fonds lors de son mandat de ministre des Transports au début des années 2000 (archivé ici), Cellou Diallo, principal opposant politique d'Alpha Condé, a quant à lui quitté la Guinée en 2022.

 

En avril 2023, la France rappelait "sa disponibilité à accompagner" la transition guinéenne vers un pouvoir civil "jusqu’à son terme, ainsi que le processus électoral, en coordination avec les autres acteurs internationaux de la Guinée", avait écrit l’AFP (archive).

 

Si les relations ambiguës que la France entretient avec l’Afrique, particulièrement les anciens territoires colonisés, sont connues, et l'ingérence de l’Hexagone sur le continent souvent critiquée, dès la première écoute de cet enregistrement, certains détails et spécificités conduisent à douter de son authenticité.

 

"Prononciations artificielles" et "liaisons étranges"

En écoutant l’enregistrement, on comprend qu’il s’agirait d’un message vocal, probablement laissé sur un répondeur téléphonique. En effet, les paroles suivantes sont prononcées : "Salut Mamady, c’est Emmanuel Macron. Je te laisse cet audio parce que je n’arrive pas à te joindre. J’espère que ça va ?"

 

 

Cependant, les différents sujets abordés dans le message, comme "l'Affaire Air Guinée", qui fait référence à l'enquête judiciaire résultant de la privatisation de la compagnie aérienne nationale il y a près de 20 ans, ou encore la soi-disant conspiration à l’encontre du principal opposant politique Cellou Diallo, semblent peu probables dans le contexte si peu formel et sécurisé d’un message laissé sur une boîte vocale.

L’élocution du protagoniste interroge également. Selon Jean-Luc Gauvin (lien archivé), directeur de recherche au Centre national de la recherche scientifique (CNRS) et spécialiste du traitement de la parole interrogé par l’AFP, "tout est faux là-dedans", de "l’intonation qui n’est pas naturelle" aux "prononciations artificielles" en passant par "des liaisons étranges", précise-t-il, insistant également sur le manque de respiration et le rythme saccadé du flux de paroles de cet l’enregistrement.

 

Un deepfake

Ces différents éléments poussent ainsi à croire qu’il s’agit d’un deepfake, c'est-à-dire un contenu audiovisuel truqué grâce à des technologies utilisant l'intelligence artificielle. Un deepfake peut par exemple permettre de faire dire ou faire à des personnes des choses qu'elles n'ont pas dites ou faites, comme c’est le cas dans la bande son étudiée ici.

 

Les deepfakes sont parfois utilisés à des fins humoristiques mais peuvent également poser problème sur internet s'ils servent à manipuler les internautes ou à diffamer.

 

 

L'AFP a d'ailleurs vérifié à plusieurs reprises des contenus multimédias générés par intelligence artificielle (1, 2 et 3).

Ici, la publication semble avoir pour objectif d'amplifier les critiques dénonçant l'ingérence de la France dans les affaires africaines, malgré la volonté affichée par Paris de réinventer les relations avec ses partenaires africains."L'âge de la Françafrique" est "révolu", avait assuré le président français Emmanuel Macron lors d’une visite au Gabon en mars, décrivant désormais la France comme "un interlocuteur neutre" du continent (lien archivé).

 

Un discours qui peine à convaincre en Afrique de l'Ouest, à en juger par la multiplication des manifestations hostiles à la France dans cette région instable, comme ce fut le cas dimanche au Niger, où un putsch a renversé le président Mohamed Bazoum. Des milliers de manifestants pro-putschistes se sont réunis devant l'ambassade de France à Niamey, avant d'être dispersés par des grenades lacrymogènes (lien archivé). Paris a annoncé mardi préparer l'évacuation de ses ressortissants et d'autres Européens du pays.

 

De plus, cet audio ne semble pas avoir été réalisé à partir de phrases déjà prononcées par Emmanuel Macron lors de précédents discours, comme le confirme Jean-Luc Gauvin.

 

Les différentes recherches d'occurrences menées à partir de la transcription de cet enregistrement n’ont en effet donné aucun résultat, indiquant qu’il s’agit bel et bien d’un texte rédigé ex-nihilo.

 

Des éléments "communs à une voix générée artificiellement"

La plupart des outils de détection d'IA sont généralement basés sur des calculs de probabilités. C’est le cas de la méthode employée par Team8 (archive), un groupe qui investit dans les domaines de la cybersécurité, de la data et de la fintech.

 

Gadi Evron, responsable de la sécurité informatique pour Team8, qui a réalisé une analyse manuelle de l’enregistrement à la demande de l’AFP, a noté de "lourds filtres appliqués à l’audio" ainsi qu’un "bruit de fond très important par rapport à la parole".

 

"Il y a également plusieurs segments qui sont étranges et communs à une voix générée artificiellement, comme un changement de volume au milieu d’un mot", a également indiqué Team8.

 

L’équipe a également analysé le fichier à l’aide du logiciel ElevenLabs Speech Classifier, qui a estimé que la probabilité que la voix contenue dans l’enregistrement soit générée par IA est de 98%.

 

En outre, le logiciel affirme qu’il serait "très probable" que l’audio ait été généré directement par la plateforme ElevenLabs.

 

ElevenLabs propose en effet de cloner des voix, en se basant sur des extraits sonores réels. A partir de deux discours d’Emmanuel Macron, récupérés sur Internet puis téléchargés dans le logiciel, nous avons réalisé une voix dite "Macron". En utilisant le même texte que celui de  l’audio étudié, nous avons obtenu un résultat extrêmement proche.

 

En quelques secondes, il est ainsi possible de créer un enregistrement avec une voix semblable à celle d'une personnalité, comme c'est le cas ci-dessous.

A partir de ces éléments, nous pouvons estimer que l'audio étudié a effectivement été généré par intelligence artificielle.

 

Distance entre voix réelle et voix suspecte

Cette estimation a été confirmée à l’AFP par des chercheurs du groupe de recherche en traitement d’images (GRIP) de l’Université de Naples Federico II (lien archivé), spécialisés en analyse forensique, c’est-à-dire la recherche de preuves sur des supports numériques, qui travaille en partenariat avec l’AFP dans le cadre du projet européen (archive) de lutte contre la désinformation vera.ai (archivé ici)

 

Cette méthode apporte davantage de fiabilité puisqu’elle ne repose pas sur des calculs de probabilités, mais se traduit par une analyse de la voix d’Emmanuel Macron, dont l'empreinte biométrique est calculée à partir d'une dizaine de véritables enregistrements - ici 190 minutes et 32 secondes issues de différents discours d’Emmanuel Macron comme celui-ci, ou celui-là - qui sont ensuite comparés (visage et/ou audio) à l’enregistrement suspect pour mesurer la distance entre les deux voix.

 

Si la distance obtenue entre la voix suspecte et la voix réelle est significative, cela prouve que l’enregistrement est faux. Dans ce cas, la démonstration repose donc uniquement sur la voix (ou le visage) réelle de la personne ciblée à partir d’une plusieurs enregistrements et l’on ne demande pas à la machine de faire une prédiction entre vrai ou faux.

 

<span>Analyse de l'enregistrement suspect de la voix d'Emmanuel Macron pour l'AFP</span><div><span>GRIP</span></div>

Analyse de l'enregistrement suspect de la voix d'Emmanuel Macron pour l'AFP

GRIP

Sur ce graphique transmis par les chercheurs du GRIP,  le Constant False Alarm Rate (en ordonnée) permet de calculer la distance (représentée par la courbe continue noire) entre la voix réelle d’Emmanuel Macron (représentée par la ligne rouge pointillée) et la voix contenue dans l’audio suspect, sur la durée du fichier étudié (en abscisse).

 

On observe ainsi qu’il subsiste une distance importante sur la durée complète de l’enregistrement entre la voix réelle d’Emmanuel Macron et celle présente dans l’enregistrement suspect.

 

 

La somme de ces différentes analyses conjuguées nous permet donc d’affirmer que cet enregistrement n'est pas authentique et a été généré par intelligence artificielle.

 

Voir la suite sur AFP 

Le 2 août 2023

Écrire commentaire

Commentaires: 0