L’intelligence artificielle VALL-E effectue l’imitation de votre voix en trois secondes !
16/03/2023Le géant Microsoft a pensé et conçu VALL-E, une IA pouvant reproduire une voix via un simple échantillon de trois secondes. Des essais ont été dévoilés et le moins qu’on puisse dire c’est que les résultats sont tout simplement bluffants. Or, cette solution pourrait être utilisée par des individus malintentionnés.
Le phénomène des « deep fake » (que cela soient via des images ou des vidéos) a pris énormément d’ampleur ces dernières années. Désormais, ces hypertrucages vont-il concerner l’audio ? C’est malheureusement une forte possibilité car le mastodonte Microsoft a présente un modèle d’IA de synthèse vocale nommé VALL-E. Sa spécificité ? L’imitation et la stimulation de la voix d’un individu grâce à un simple échantillon audio d’une courte durée : trois secondes.
Comment fonctionne cette IA ?
Quand une voix particulière est ingérée par l’intelligence artificielle, cette dernière en effectue la synthétisation (les sonorités de la voix d’un individu), tout conservant les deux aspects suivants : timbre et émotions.
Chez le géant Microsoft, VALL-E pourrait servir à des usages de synthèse vocale, mais également pour éditer la parole dans un simple enregistrement. Et c’est bien là le souci majeur de cette IA. En effet, on pourrait ainsi procéder à l’édition et à la modification du son via une transcription écrite d’un discours. Conséquence : n’importe quel oral d’une personnalité politique pourrait être changée via cette technologie.
L’apprentissage automatique (machine learning) en action
Pour l’entreprise, VALL-E est ce qu’on nomme un modèle de langage de codec neuronal et il se base sur la solution de compression audio EnCodec, présentée par Meta (Facebook) l’année dernière. À contrario des autres techniques de synthèse vocale qui procèdent à des synthétisations via la parole en utilisant des formes d’onde, la solution révolutionnaire VALL-E engendre des codes de codec audio grâce à des échantillons écrits et acoustiques.
Cette technologie étude en majeure partie le son d’un individu, traduit ces données en tokens (jetons) via EnCodec, et il se sert de la méthode de l’apprentissage automatique « machine learning ». Résultat : une correspondance de l’échantillon de trois secondes est générée.
Dans ce but, le géant Microsoft s’est basé sur la bibliothèque sonore nommée LibriLight. Elle intègre soixante mille heures de discours en anglais de plus de sept mille locuteurs, provenant en majeure partie des livres audio du domaine public LibriVox. Afin que la solution d’IA VALL-E conçoive un résultat efficace, précis et pertinent, une condition est nécessaire : il doit y avoir correspondance de la voix présente dans l’échantillon avec celle des données d’apprentissage.
Microsoft connaît les risques
Le géant Microsoft donne des dizaines d’exemples audio de ce modèle d’intelligence artificielle. Plusieurs ont un réalisme saisissant. Néanmoins, d’autres sont terriblement réalistes. Par contre, ce n’est pas le cas pour d’autres où on remarque immédiatement qu’il s’agit d’intelligence artificielle. Outre le fait de sauvegarder le timbre et l’émotion de l’individu parlant, la solution d’IA VALL-E peut effectuer la reproduction de l’environnement et des spécificités de l’enregistrement audio. Le mastodonte Microsoft se base sur un appel téléphonique avec les caractéristiques acoustiques et fréquentielles spécifiques à ce genre d’échanges.
Questionné sur les risques de ce genre d’intelligence artificielle, Microsoft a dévoilé l’indisponibilité du code source. Le groupe sait que cela peut engendrer des risques éventuels d’usage abusif du modèle, comme l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique. Afin de restreindre ces dangers, il est possible de façonner un modèle de détection pour voir si un clip audio a subi une traitement avec la technologie VALL-E.