Le nouveau traducteur de Meta utilise un unique modèle pour parler 100 langues. Une innovation importante open-source très prometteuse.
Les méthodes de traduction moderne via IA sont aujourd’hui suffisamment évoluées pour converser dans environ 6 500 systèmes de communication orale et écrite et passer de l’un à l’autre. Le problème, c’est que chacun de ces modèles ne fait souvent qu’une ou deux tâches très bien – traduire et convertir le texte en voix, la voix vers le texte, le texte vers le texte ou la voix vers la voix -. De fait, on se retrouve avec quantité de modèles les uns par-dessus les autres pour créer un outil généralisé comme Google Traduction ou les services de langue de Facebook.
Ceci demande d’énormes ressources de calcul. C’est pour cela que Meta a développé un modèle unique capable de tout faire. SeamlessM4T est un “modèle fondation multilingue et multitâche qui traduit et transcrit la voix et le texte”, peut-on lire dans un post de blog de Meta. Il peut traduire dans près de 100 langues pour les fonctions de voix-vers-texte et texte-vers-texte. Le voix-vers-voix et texte-vers-voix prend en charge ces mêmes langues en entrée et peut les sortir en 36 langues, dont l’anglais.
Dans le post de blog, l’équipe de recherche de Meta précise que SeamlessM4T “améliore significativement les performances des langues à faible ou peu de ressources que nous prenons en charge”, tout en maintenant “des performances élevées sur les langues à grandes ressources, comme l’anglais, l’espagnol et l’allemand.” Meta a bâti SeamlessM4T depuis son architecture modèle UnitY multitâche basée sur PyTorch, qui permet déjà de réaliser des traductions modales variées nativement ainsi que de la reconnaissance vocale automatique. Il utilise le système BERT 2.0 pour l’encodage audio, la séparation des entrées en tokens pour analyse et un vocodeur HiFi-GAN pour générer les réponses parlées.
Une innovation importante open-source très prometteuse
Meta a aussi rassemblé un énorme ensemble de données voix-vers-voix et voix-vers-texte parallèle, baptisé SeamlessAlign. L’entreprise a récupéré des “dizaines de milliards de phrases” et “quatre millions d’heures” d’audio depuis des sources disponibles publiquement pour “aligner automatiquement plus de 443 000 heures de voix avec les textes correspondants et créer environ 29 000 heures d’alignements voix-vers-voix”, toujours selon le blog. Lorsque la robustesse du système a été évaluée, SeamlessM4T a surpassé son prédécesseur face aux bruits d’arrière-plan et aux variations de style du narrateur de 37 et 48 %, respectivement.
Comme avec tous ses efforts précédents en ce qui concerne la traduction, qu’il s’agisse de Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) ou l’ambition projet No Language Left Behind (NLLB), SeamlessM4T est désormais open-source. “Nous pensons que SeamlessM4T est une innovation importante dans la quête de la communauté IA vers la création de systèmes multitâche universels”, écrit l’équipe. “En gardant notre approche d’ouvrir la science, nous sommes impatients de partager notre modèle publiquement pour permettre aux chercheurs et développeurs de bâtir sur cette technologie.” Si vous êtes intéressé(e) par l’idée de travailler avec SeamlessM4T vous-même, direction GitHub pour télécharger le modèle, les données d’entrainement et la documentation.
Source link