
Pluto a annoncé le 19 qu'il participait au « Projet de construction de corpus parallèle coréen-langue étrangère » organisé par l'Institut national de la langue coréenne pendant cinq années consécutives. Ce projet vise à créer des données linguistiques de haute qualité pour le développement de la technologie de l'intelligence artificielle (IA) et se concentre sur la protection de la souveraineté des données de la langue et de la culture coréennes et sur le soutien au développement de la technologie de l'intelligence artificielle de style coréen.
Pluto a mené ce projet pendant cinq années consécutives de 2021 à aujourd'hui, enregistrant un total de 11,5 milliards de wons de commandes et 55 millions de phrases construites. Le projet de cette année est mené en coopération avec la Fondation de coopération industrielle et académique de l'Université Kyunghee, et sur un projet total d'une valeur de 4,2 milliards de wons, Pluto était chargé de construire un corpus parallèle d'une valeur de 2,09 milliards de wons. Ce projet permettra de constituer un corpus parallèle de 9 millions de mots dans neuf langues : vietnamien, indonésien, thaï, hindi, khmer, tagalog, russe, ouzbek et anglais.
Au cours de cinq années d'implication dans le monde des affaires, Pluto a accumulé des données linguistiques essentielles au développement de logiciels de traduction basés sur l'IA et de technologies de traitement du langage naturel (NLP). Les données construites seront utilisées pour le développement technologique du secteur des langues et de la culture dirigé par le gouvernement, et en particulier, en numérisant les langues à faibles ressources dans les régions ASEAN-Inde et eurasienne, on s'attend à ce qu'elles résolvent les déséquilibres de données existants et favorisent les échanges linguistiques et culturels entre les pays.
Lee Jeong-su, PDG de Pluto, a déclaré : « Il est significatif que l'expérience et l'expertise de Pluto en matière de construction de données linguistiques aient été reconnues et que nous ayons pu mener à bien le projet pendant cinq années consécutives », et a ajouté : « Nous continuerons à fournir des données linguistiques de haute qualité et à contribuer au renforcement de la compétitivité mondiale de la technologie coréenne d'intelligence artificielle. »
Les données linguistiques construites grâce à ce projet peuvent être consultées dans le « Corpus de tous », un système intégré de partage d’informations linguistiques exploité par l’Institut national de la langue coréenne, et seront utilisées comme une ressource importante pour la recherche et le développement technologique. En outre, il devrait constituer un support important pour les entreprises nationales qui envisagent de s’implanter dans des pays utilisant des langues à faibles ressources.
- Voir plus d'articles connexes
You must be logged in to post a comment.