mercredi, 11 décembre 2024

Meta AI annonce le premier système de traduction vocale basé sur l’IA pour une langue non écrite

La traduction artificielle de la parole est une technologie d’intelligence artificielle (IA) en plein essor. Initialement créée pour faciliter la communication entre personnes parlant différentes langues, cette technologie de traduction parole-parole (S2ST) a trouvé sa place dans plusieurs domaines. Par exemple, des conglomérats technologiques mondiaux utilisent désormais S2ST pour traduire directement des documents partagés et des conversations audio dans le métaverse.

Sur Cloud Next 22 la semaine dernière, Google a annoncé son propre modèle de traduction vocale par IA, « Translation Hub », utilisant des API de traduction dans le cloud et la traduction AutoML. Maintenant, Meta n’est pas loin derrière.

Meta AI a annoncé aujourd’hui le lancement du projet de traducteur vocal universel (UST), qui vise à créer des systèmes d’IA permettant une traduction parole-parole en temps réel dans toutes les langues, même celles qui sont parlées mais pas couramment écrites.

« Meta AI a créé le premier traducteur vocal qui fonctionne pour les langues qui sont principalement parlées plutôt qu’écrites. Nous l’offrons en open source afin que les gens puissent l’utiliser pour plus de langues », a déclaré Mark Zuckerberg, cofondateur et PDG de Meta.

Événement

Prochain Sommet GamesBeat 2022

Rejoignez les leaders du jeu en direct les 25 et 26 octobre à San Francisco pour examiner les prochaines grandes opportunités dans le domaine du jeu secteur.


Inscrivez-vous ici

Selon Meta, le modèle est le premier système de traduction vocale basé sur l’IA pour la langue non écrite Hokkien, une langue chinoise parlée dans le sud-est de la Chine et à Taïwan et par de nombreux membres de la diaspora chinoise à travers le monde. Le système permet aux locuteurs de Hokkien de tenir des conversations avec des anglophones, une étape importante pour briser la barrière linguistique mondiale et rassembler les gens où qu’ils se trouvent, même dans le métaverse.

C’est une tâche difficile car, contrairement au mandarin, à l’anglais et à l’espagnol, qui sont à la fois écrits et oraux, le hokkien est principalement verbal.

Comment L’IA peut s’attaquer à la traduction de parole en parole

Meta indique que les modèles de traduction IA actuels se concentrent sur les langues écrites largement parlées, et que plus de 40 % des langues principalement orales ne sont pas couvertes par ces technologies de traduction. Le projet UST s’appuie sur les progrès partagés par Zuckerberg lors de l’événement AI Inside the Lab de l’entreprise qui s’est tenu en février, à propos de la traduction universelle de la parole en parole de Meta AI recherche pour les langues peu courantes en ligne. Cet événement s’est concentré sur l’utilisation de ces technologies d’IA immersives pour construire le métaverse.

Pour développer l’UST, Meta AI s’est concentré sur la résolution de trois défis critiques du système de traduction. Il a résolu la pénurie de données en acquérant plus de données de formation dans plus de langues et en trouvant de nouvelles façons d’exploiter les données déjà disponibles. Il a abordé les défis de modélisation qui surviennent à mesure que les modèles se développent pour servir de nombreux autres langages. Et il a cherché de nouvelles façons d’évaluer et d’améliorer ses résultats.

L’équipe de recherche de Meta AI a travaillé sur Hokkien en tant qu’étude de cas pour une solution de bout en bout, de la collecte de données de formation et des choix de modélisation à l’analyse comparative des ensembles de données. L’équipe s’est concentrée sur la création de données annotées par l’homme, l’extraction automatique de données à partir de grands ensembles de données vocales non étiquetées et l’adoption d’un pseudo-étiquetage pour produire des données faiblement supervisées.

« Notre équipe a d’abord traduit le discours en anglais ou hokkien en texte mandarin, puis l’a traduit en hokkien ou en anglais », a déclaré Juan Pino, chercheur chez Meta. « Ils ont ensuite ajouté les phrases appariées aux données utilisées pour entraîner le modèle d’IA. »

Méta IA Mark Zuckerberg présente le modèle de traduction IA de la parole à la parole de l’entreprise.

Pour la modélisation, Meta AI a appliqué les avancées récentes dans l’utilisation de représentations discrètes auto-supervisées comme cibles de prédiction dans la traduction de la parole à la parole, et a démontré l’efficacité de l’exploitation d’une supervision de texte supplémentaire à partir du mandarin, une langue similaire au hokkien, dans formation modèle. Meta AI indique qu’il publiera également un ensemble de références de traduction de parole en parole pour faciliter les recherches futures dans ce domaine.

William Falcon, chercheur en intelligence artificielle et PDG/cofondateur de Lightning AI, a déclaré que la parole artificielle la traduction pourrait jouer un rôle important dans le métaverse, car elle contribue à stimuler les interactions et la création de contenu.

« Pour les interactions, cela permettra aux gens du monde entier de communiquer entre eux de manière plus fluide, rendant le graphe social plus interconnecté. De plus, l’utilisation de la traduction vocale artificielle pour le contenu vous permet de localiser facilement le contenu à consommer dans plusieurs langues », a déclaré Falcon à VentureBeat.

Falcon estime qu’une confluence de facteurs, tels que la pandémie ayant massivement augmenté la quantité de travail à distance, ainsi que le recours aux outils de travail à distance, ont conduit à une croissance dans ce domaine. Ces outils peuvent bénéficier de manière significative des capacités de traduction vocale.

« Bientôt, nous pourrons accueillir des podcasts, Reddit AMA ou des expériences de type Clubhouse au sein du métaverse. Permettre à ceux-ci d’être multidiffusés dans plusieurs langues élargit l’audience potentielle à grande échelle », a-t-il déclaré.

Comment fonctionne le traducteur vocal universel (UST) de Meta 

Le modèle utilise S2UT pour convertir la voix d’entrée en une séquence d’unités acoustiques directement dans le chemin, une implémentation que Meta a précédemment lancée. La sortie générée se compose de formes d’onde provenant des unités d’entrée. De plus, Meta AI a adopté Unity pour un mécanisme de décodage en deux passes où le décodeur de première passe génère du texte dans une langue apparentée (mandarin) et le décodeur de seconde passe crée des unités.

Pour permettre l’évaluation automatique du Hokkien, Meta AI a développé un système qui transcrit le discours du Hokkien dans une notation phonétique standardisée appelée « Tâi-lô ». Cela a permis à l’équipe de science des données de calculer les scores BLEU (une métrique de traduction automatique standard) au niveau des syllabes et de comparer rapidement la qualité de traduction de différentes approches.

L’architecture modèle de l’UST avec des décodeurs à un seul passage et à deux passages. Les blocs en grisé illustrent les modules qui ont été préformés..

En plus de développer une méthode d’évaluation des traductions vocales hokkien-anglais, l’équipe a créé le premier ensemble de données de référence de traduction parole-parole bidirectionnelle hokkien-anglais, basé sur un corpus vocal hokkien appelé Taiwanese Across Taiwan.

Meta AI affirme que les techniques qu’elle a mises au point avec Hokkien peuvent être étendues à de nombreux autres langages non écrits et éventuellement fonctionner en temps réel. À cette fin, Meta publie la Speech Matrix, un vaste corpus de traductions de parole en parole extraites avec la technique innovante d’exploration de données de Meta appelée LASER. Cela permettra à d’autres équipes de recherche de créer leurs propres systèmes S2ST.

LASER convertit des phrases de différentes langues en une seule représentation multimodale et multilingue. Le modèle utilise une recherche de similarité multilingue à grande échelle pour identifier les phrases similaires dans l’espace sémantique, c’est-à-dire celles qui sont susceptibles d’avoir le même sens dans différentes langues.

Les données extraites de Speech Matrix fournissent 418 000 heures de parole parallèle pour entraîner le modèle de traduction, couvrant 272 directions linguistiques. Jusqu’à présent, plus de 8 000 heures de discours hokkien ont été extraites avec les traductions anglaises correspondantes.

Un avenir d’opportunités et défis de la traduction vocale

Meta AI se concentre actuellement sur le développement d’un système de traduction de la parole à la parole qui ne repose pas sur la génération d’une représentation textuelle intermédiaire lors de l’inférence. Cette approche s’est avérée plus rapide qu’un système en cascade traditionnel qui combine des modèles distincts de reconnaissance vocale, de traduction automatique et de synthèse vocale.

Yashar Behzadi, PDG et fondateur de Synthesis AI, estime que la technologie doit permettre davantage des expériences immersives et naturelles si le métaverse doit réussir.

Il a déclaré que l’un des défis actuels des modèles UST est la formation coûteuse en calculs nécessaire en raison de l’étendue, de la complexité et des nuances des langages.

« Pour former des modèles d’IA robustes, il faut de grandes quantités de données représentatives. Un goulot d’étranglement important pour la construction de ces modèles d’IA dans un avenir proche sera la collecte, la conservation et l’étiquetage conformes à la confidentialité des données de formation », a-t-il déclaré. « L’incapacité à capturer des données suffisamment diverses peut conduire à des biais, impactant différemment les groupes de personnes. Les technologies émergentes de voix synthétique et de NLP peuvent jouer un rôle important dans l’activation de modèles plus performants. »

Selon Meta, avec une efficacité améliorée et des architectures plus simples, la reconnaissance vocale directe pourrait débloquer une traduction en temps réel de qualité quasi humaine pour les futurs appareils tels que les lunettes AR. En outre, les avancées récentes de la société en matière de reconnaissance vocale non supervisée (wav2vec-U) et de traduction automatique non supervisée (mBART) faciliteront les futurs travaux de traduction de davantage de langues parlées au sein du métaverse.

Avec de tels progrès dans l’apprentissage non supervisé, Meta vise à briser les barrières linguistiques à la fois dans le monde réel et dans le métaverse pour toutes les langues, qu’elles soient écrites ou non écrites.

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici