L’IA de langage de Meta passe à l’open-source et reconnaît plus de 4000 langues

L’IA de langage de Meta devient open-source et peut reconnaître plus de 4 000 langues. Meta envisage d’ouvrir la technologie à toutes les langues vivantes.

Meta a créé un modèle de langage IA très intéressant. Le projet Massively Multilingual Speech (MMS) peut reconnaître plus de 4 000 langues parlées et produire du contenu oral texte-vers-voix dans plus de 1 100 d’entre elles. Comme la majorité des autres annonces publiques de projets IA, Meta rend MMS open-source pour aider à préserver la diversité des langues et encourager les chercheurs à travailler avec.

Les modèles de reconnaissance du langage oral et de texte-vers-voix nécessitent normalement des milliers d’heures d’audio pour leur entraînement, avec leurs traductions texte. Mais pour les langues qui ne sont beaucoup parlées, et nombre d’entre elles risquent de disparaître, “ces données n’existent tout simplement pas”, comme l’explique Meta.

Meta a utilisé une approche non conventionnelle pour collecter des données audio : puiser dans des enregistrements audio de textes religieux traduits. “Nous nous sommes tournés vers les textes religieux, comme la Bible, qui a été traduit dans tellement de langues différentes et dont les traductions ont été grandement étudiées pour des recherches de traduction. […] Ces traductions ont des enregistrements audio de personnes qui lisent ces textes dans différentes langues accessibles publiquement.” Ce qui a permis de passer la barre des 4 000 langues reconnues par le modèle.

Et selon Meta, il n’y a là aucun biais possible : “Bien que le contenu des enregistrements audio soit religieux, notre analyse montre que le modèle n’est pas biaisé pour produire davantage de langues religieuses. […] Nous pensons que c’est parce que nous utilisons une approche Connectionist Temporal Classification (CTC), qui est bien plus contraignante que les grands modèles de langage (LLM) ou modèle séquence-vers-séquence pour la reconnaissance du langage.” Et malgré le fait que les textes soient principalement lus par des hommes, il n’y a pas non plus de biais de genre. Les performances sont identiques avec des voix masculines et féminines.

Après avoir entraîné un modèle d’alignement pour rendre les données plus utilisables, Meta a utilisé wav2vec 2.0, le modèle d’”apprentissage de représentation du langage auto-supervisé” de l’entreprise, lequel peut apprendre avec des données sans leurs traductions. Combiner des sources de données non conventionnelles et un modèle de langage auto-supervisé a produit des résultats impressionnants. “Nos résultats montrent que les modèles MMS s’en sortent très bien par rapport aux modèles existants et couvrent 10 fois plus de langues.” Plus précisément, Meta a comparé le MMS à Whipser, d’OpenAI, et le résultat est excellent. “Nous avons trouvé que les modèles entraînés sur les données de MMS atteignent la moitié du taux d’erreur sur les mots, mais MMS couvre 11 fois plus de langues.”

Meta rappelle cependant que ces nouveaux modèles ne sont pas parfaits. “Par exemple, il y a des risques que le modèle voix-vers-texte retranscrive de manière incorrecte certains mots ou phrases. […] Le résultat pourrait être offensant et/ou imprécis. Nous continuons de croire qu’une collaboration avec la communauté IA est vitale pour un développement responsable des technologies d’intelligence artificielle.”

Maintenant que Meta a rendu son MMS open-source pour la recherche, le géant américain espère pouvoir inverser la tendance de cette technologie qui se “concentre” sur les 100 langues, ou moins, les plus populaires. La firme de Menlo Park imagine un monde dans lequel les technologies d’aide, TTS et même d’AR et VR pourraient aider tout un chacun à parler et apprendre dans leur langue natale. “Nous rêvons d’un monde dans lequel la technologie a l’effet inverse, encourageant les gens à garder leur langue bien vivante puisqu’ils pourraient accéder à l’information et utiliser les technologies en parlant leur langue de prédilection.”

A propos rivera

Rédacteur en chef et journaliste RP, ma passion pour les jeux vidéo et la technologie ne faiblit pas depuis mon adolescence, qui me semble pourtant bien lointaine. Un recul cependant intéressant, puisqu'il me permet de jauger les nouveautés avec un regard plein d'expérience, couplé à une envie d'écrire de tous les jours.

Voir aussi...

Kingdom Come: Deliverance II se met à jour et intègre les mods

Le patch 1.2 propose une mise à jour importante, fruit de cinq mois de travail …

Clair Obscur: Expedition 33 dévoile ses personnages avec une nouvelle série de vidéos

Sandfall Interactive diffuse le premier épisode d’une série hebdomadaire de vidéos mettant en avant les personnages …

Atelier Yumia: L’Alchimiste des Souvenirs et la Terre Rêvée se laisse approcher avant sa sortie

Une démo publique du prochain JRPG Atelier Yumia: L’Alchimiste des Souvenirs et la Terre Rêvée sera disponible …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *