{"id":60123,"date":"2023-05-23T15:34:20","date_gmt":"2023-05-23T15:34:20","guid":{"rendered":"https:\/\/www.tunimedia.tn\/fr\/lia-de-langage-de-meta-devient-open-source-et-peut-reconnaitre-plus-de-4-000-langues\/"},"modified":"2023-05-23T15:34:20","modified_gmt":"2023-05-23T15:34:20","slug":"lia-de-langage-de-meta-devient-open-source-et-peut-reconnaitre-plus-de-4-000-langues","status":"publish","type":"post","link":"https:\/\/tunimedia.tn\/fr\/lia-de-langage-de-meta-devient-open-source-et-peut-reconnaitre-plus-de-4-000-langues\/","title":{"rendered":"L&rsquo;IA de langage de Meta devient open-source et peut reconna\u00eetre plus de 4 000 langues"},"content":{"rendered":"<p> [ad_1]\n<\/p>\n<div>\n<p class=\"chapo\">L&rsquo;IA de langage de Meta devient open-source et peut reconna\u00eetre plus de 4 000 langues. Meta envisage d&rsquo;ouvrir la technologie \u00e0 toutes les langues vivantes.<\/p>\n<p><strong>Meta<\/strong> a cr\u00e9\u00e9 un mod\u00e8le de langage IA tr\u00e8s int\u00e9ressant. Le <a target=\"_blank\" href=\"https:\/\/www.engadget.com\/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html\" rel=\"noopener\">projet <em>Massively Multilingual Speech<\/em> (MMS)<\/a> peut reconna\u00eetre plus de 4 000 langues parl\u00e9es et produire du contenu oral texte-vers-voix dans plus de 1 100 d\u2019entre elles. Comme la majorit\u00e9 des autres annonces publiques de projets IA, Meta rend MMS open-source pour aider \u00e0 pr\u00e9server la diversit\u00e9 des langues et encourager les chercheurs \u00e0 travailler avec.<\/p>\n<p>Les mod\u00e8les de reconnaissance du langage oral et de texte-vers-voix n\u00e9cessitent normalement des milliers d\u2019heures d\u2019audio pour leur entra\u00eenement, avec leurs traductions texte. Mais pour les langues qui ne sont beaucoup parl\u00e9es, et nombre d\u2019entre elles risquent de dispara\u00eetre, \u201cces donn\u00e9es n\u2019existent tout simplement pas\u201d, comme l\u2019explique Meta.<\/p>\n<p><a target=\"_blank\" href=\"https:\/\/www.begeek.fr\/meta-voudrait-utiliser-les-technologies-doptique-de-magic-leap-382347\" rel=\"noopener\">Meta<\/a> a utilis\u00e9 une approche non conventionnelle pour collecter des donn\u00e9es audio : puiser dans des enregistrements audio de textes religieux traduits. \u201cNous nous sommes tourn\u00e9s vers les textes religieux, comme la Bible, qui a \u00e9t\u00e9 traduit dans tellement de langues diff\u00e9rentes et dont les traductions ont \u00e9t\u00e9 grandement \u00e9tudi\u00e9es pour des recherches de traduction. [\u2026] Ces traductions ont des enregistrements audio de personnes qui lisent ces textes dans diff\u00e9rentes langues accessibles publiquement.\u201d Ce qui a permis de passer la barre des 4 000 langues reconnues par le mod\u00e8le.<\/p>\n<p>Et selon Meta, il n\u2019y a l\u00e0 aucun biais possible : \u201cBien que le contenu des enregistrements audio soit religieux, notre analyse montre que le mod\u00e8le n\u2019est pas biais\u00e9 pour produire davantage de langues religieuses. [\u2026] Nous pensons que c\u2019est parce que nous utilisons une approche <em>Connectionist Temporal Classification <\/em>(CTC), qui est bien plus contraignante que les grands mod\u00e8les de langage (LLM) ou mod\u00e8le s\u00e9quence-vers-s\u00e9quence pour la reconnaissance du langage.\u201d Et malgr\u00e9 le fait que les textes soient principalement lus par des hommes, il n\u2019y a pas non plus de biais de genre. Les performances sont identiques avec des voix masculines et f\u00e9minines.<\/p>\n<p>Apr\u00e8s avoir entra\u00een\u00e9 un mod\u00e8le d\u2019alignement pour rendre les donn\u00e9es plus utilisables, Meta a utilis\u00e9 wav2vec 2.0, le mod\u00e8le d&rsquo;\u201dapprentissage de repr\u00e9sentation du langage auto-supervis\u00e9\u201d de l\u2019entreprise, lequel peut apprendre avec des donn\u00e9es sans leurs traductions. Combiner des sources de donn\u00e9es non conventionnelles et un mod\u00e8le de langage auto-supervis\u00e9 a produit des r\u00e9sultats impressionnants. \u201cNos r\u00e9sultats montrent que les mod\u00e8les MMS s\u2019en sortent tr\u00e8s bien par rapport aux mod\u00e8les existants et couvrent 10 fois plus de langues.\u201d Plus pr\u00e9cis\u00e9ment, Meta a compar\u00e9 le MMS \u00e0 Whipser, d\u2019OpenAI, et le r\u00e9sultat est excellent. \u201cNous avons trouv\u00e9 que les mod\u00e8les entra\u00een\u00e9s sur les donn\u00e9es de MMS atteignent la moiti\u00e9 du taux d\u2019erreur sur les mots, mais MMS couvre 11 fois plus de langues.\u201d<\/p>\n<p>Meta rappelle cependant que ces nouveaux mod\u00e8les ne sont pas parfaits. \u201cPar exemple, il y a des risques que le mod\u00e8le voix-vers-texte retranscrive de mani\u00e8re incorrecte certains mots ou phrases. [\u2026] Le r\u00e9sultat pourrait \u00eatre offensant et\/ou impr\u00e9cis. Nous continuons de croire qu\u2019une collaboration avec la communaut\u00e9 IA est vitale pour un d\u00e9veloppement responsable des technologies d\u2019<a target=\"_blank\" href=\"https:\/\/www.begeek.fr\/google-ouvre-lacces-de-son-intelligence-artificielle-texte-vers-musique-381929\" rel=\"noopener\">intelligence artificielle<\/a>.\u201d<\/p>\n<p>Maintenant que Meta a rendu son MMS open-source pour la recherche, le g\u00e9ant am\u00e9ricain esp\u00e8re pouvoir inverser la tendance de cette technologie qui se \u201cconcentre\u201d sur les 100 langues, ou moins, les plus populaires. La firme de Menlo Park imagine un monde dans lequel les technologies d\u2019aide, TTS et m\u00eame d\u2019AR et VR pourraient aider tout un chacun \u00e0 parler et apprendre dans leur langue natale. \u201cNous r\u00eavons d\u2019un monde dans lequel la technologie a l\u2019effet inverse, encourageant les gens \u00e0 garder leur langue bien vivante puisqu\u2019ils pourraient acc\u00e9der \u00e0 l\u2019information et utiliser les technologies en parlant leur langue de pr\u00e9dilection.\u201d<\/p>\n<\/div>\n[ad_2]\n<br \/><a href=\"https:\/\/www.begeek.fr\/lia-de-langage-de-meta-devient-open-source-et-peut-reconnaitre-plus-de-4-000-langues-382394\">Source link <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>[ad_1] L&rsquo;IA de langage de Meta devient open-source et peut reconna\u00eetre plus de 4 000 langues. Meta envisage d&rsquo;ouvrir la technologie \u00e0 toutes les langues vivantes. Meta a cr\u00e9\u00e9 un mod\u00e8le de langage IA tr\u00e8s int\u00e9ressant. Le projet Massively Multilingual Speech (MMS) peut reconna\u00eetre plus de 4 000 langues parl\u00e9es et produire du contenu oral &hellip;<\/p>\n","protected":false},"author":1,"featured_media":57043,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[16,335,19,349,239],"tags":[],"class_list":["post-60123","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-high-tech","category-tie-games","category-mode","category-tech-net","category-web"],"jetpack_featured_media_url":"https:\/\/tunimedia.tn\/fr\/wp-content\/uploads\/2023\/04\/Meta.jpg","jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts\/60123","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/comments?post=60123"}],"version-history":[{"count":0,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts\/60123\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/media\/57043"}],"wp:attachment":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/media?parent=60123"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/categories?post=60123"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/tags?post=60123"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}