Amazon développe actuellement une intelligence artificielle (IA) capable de résoudre les problèmes liés au doublage des films. L’algorithme serait non seulement capable de traduire automatiquement la source audio d’un film, mais aussi d’adapter le timbre, l’émotion ou les bruits du fond pour rester fidèle à la version originale.
Aujourd’hui, même quand les studios traduisent un film en langue étrangère, il subsiste des imperfections perceptibles à toute oreille attentive. Il y a par exemple un léger décalage entre voix et mouvements des lèvres ou des effets désagréables de bruits de fond. Pour résoudre ces problèmes de doublage, Amazon travaille en ce moment sur une IA qui capable de traduire automatiquement la source audio d’un film et d’adapter le timbre, l’émotion ou les bruits du fond pour coller à la réalité de la version originale.
47 heures enregistrements traduits de l’anglais en italien
Les chercheurs en intelligence artificielle d’Amazon ont synchronisé des phrases entre l’anglais et l’italien. Ils s’appuient pour cela sur la fluidité, plutôt que sur le contenu. Ce qui suppose que cette technologie veut automatiser la traduction, mais également l’améliorer en tenant compte d’éléments parfois oubliés par les « traducteurs humains ». Il s’agit notamment de la prosodie. C’est pourquoi, l’équipe d’Amazon s’attèle à séparer les différentes pistes audio (les bruits de fond et les dialogues). Cette étape, dite de « réverbération », permet d’estimer l’impact du dialogue sur les bruits de fond et sur l’environnement pour l’appliquer au son doublé.
Pour effectuer les premiers tests, les chercheurs ont fait appel à 14 volontaires, 5 italiens et 9 non-italiens. Ces cobayes ont dû noter, à partir de deux méthodes différentes, la qualité de 24 extraits vocaux de 47 heures en anglais, traduits en italien. La première renvoie à une méthode de traduction classique « de la parole à la parole », constituée d’un transformateur et formée sur plus de 150 millions de paires anglaises-italiennes (l’IA est actuellement testée sur la traduction entre ces deux langues). La seconde, automatisée, prenait en compte l’alignement prosodique. L’équipe d’Amazon précise que : « ce module calcule la correspondance relative de durée entre les segments de parole tout en mesurant la plausibilité linguistique des pauses et des interruptions ».
Quelques améliorations à apporter au niveau de la prosodie
Ces tests ont montré que la synchronisation automatique au niveau de la parole était une réussite. En revanche, l’étape d’alignement prosodique a eu un impact négatif sur la fluidité du doublage. « Les travaux futurs seront consacrés à l’amélioration de la composante d’alignement prosodique, en calculant une meilleure segmentation et en introduisant une synchronisation labiale plus souple », ont assuré les chercheurs.