Pluto lance un projet de collecte de données vocales arabes pour améliorer la reconnaissance multilingue par l'IA

Pluto , une société spécialisée dans les données et les solutions d'intelligence artificielle, a annoncé le 10 qu'elle avait lancé un nouveau projet visant à collecter des données vocales arabes de haute qualité afin d'améliorer le taux de reconnaissance multilingue des modèles d'IA.

Ce projet visait à améliorer les performances de l'arabe, une langue dont les taux de reconnaissance vocale sont relativement faibles. Outre l'arabe standard moderne (MSA), l'arabe compte plus de 30 dialectes. L'alternance codique, où l'arabe standard et les dialectes sont fréquemment utilisés dans les conversations quotidiennes, rend cette langue difficile à appréhender pour la constitution de données d'entraînement pour l'IA.

Pluto organise une collecte de données vocales en arabe grâce à la fonctionnalité « Arcade » intégrée à son application mobile. Les participants lisent des phrases et enregistrent leur voix. Le système d'IA analyse ensuite ces données pour déterminer le dialecte. Si le dialecte est incertain, des phrases supplémentaires sont proposées afin d'encourager une nouvelle participation et ainsi améliorer la précision des données.

L'entreprise a expliqué qu'elle avait entrepris ce projet pour répondre de manière proactive à la demande potentielle ainsi qu'aux demandes de projets réelles, car la demande de données vocales multilingues continue de croître, notamment parmi les grandes entreprises technologiques mondiales.

Pluto estime que cette collecte de données permettra de créer un ensemble de données d'entraînement reflétant la diversité linguistique, notamment l'intonation, les schémas de prononciation et le vocabulaire des locuteurs. Fort de ces informations, Pluto prévoit d'atténuer les biais d'apprentissage de l'IA liés aux variations des ressources linguistiques et de développer un ensemble de données capable d'atteindre des taux de reconnaissance élevés en situation réelle.

Lee Jeong-su, PDG de Pluto, a déclaré : « L’arabe est une langue majeure parlée par plus de 400 millions de personnes dans le monde, mais c’est une langue aux ressources limitées, avec des données relativement insuffisantes pour l’entraînement des IA. » Il a ajouté : « Grâce à ce projet, nous contribuerons à améliorer la qualité de la reconnaissance de l’arabe dans les modèles d’IA mondiaux en constituant des données qui reflètent fidèlement le contexte d’utilisation réel de l’arabe. »


  • Voir plus d'articles connexes