플리토, ‘한국어-외국어 병렬 말뭉치 구축 사업’ 참여

플리토가 국립국어원이 주관하는 ‘한국어-외국어 병렬 말뭉치 구축 사업’에 5년 연속 참여했다고 19일 밝혔다. 이 사업은 인공지능(AI) 기술 개발을 위한 고품질 언어 데이터 구축을 목표로 하며, 한국 언어문화의 데이터 주권을 지키고 한국형 인공지능 기술의 발전을 지원하는 데 중점을 두고 있다.

플리토는 2021년부터 현재까지 5년 연속 이 사업을 수행하며, 총 115억 원의 수주액과 5천5백만 개의 어절을 구축한 실적을 기록했다. 올해 사업은 경희대학교 산학협력단과 협력하여 진행되며, 총 42억 원 규모의 사업 중 플리토는 20억 9천만 원 규모의 병렬 말뭉치 구축을 맡았다. 이번 사업에서는 베트남어, 인도네시아어, 태국어, 힌디어, 크메르어, 타갈로그어, 러시아어, 우즈베크어, 영어 등 9개 언어에 대해 총 900만 어절의 병렬 말뭉치를 구축할 예정이다.

플리토는 5년간의 사업 참여를 통해 AI 기반 번역 소프트웨어 및 자연어처리(NLP) 기술 개발에 필수적인 언어 데이터를 구축해왔다. 구축된 데이터는 정부 주도 언어문화 산업 발전을 위한 기술 개발에 활용될 예정이며, 특히 아세안-인도와 유라시아 지역의 저자원 언어를 데이터화함으로써 기존 데이터 불균형을 해소하고, 국가 간 언어문화 교류를 촉진할 것으로 기대된다.

이정수 플리토 대표는 “플리토의 언어 데이터 구축 경험과 전문성을 인정받아 5년 연속 사업을 수행하게 되어 뜻깊다”며, “앞으로도 고품질의 언어 데이터를 지속적으로 공급해 한국형 인공지능 기술의 글로벌 경쟁력 강화에 기여하겠다”고 말했다.

이번 사업을 통해 구축된 언어 데이터는 국립국어원이 운영하는 언어정보나눔터 통합시스템 ‘모두의 말뭉치’에서 확인할 수 있으며, 연구 및 기술 개발을 위한 중요한 자원으로 활용될 예정이다. 또한, 저자원 언어를 사용하는 국가로 진출을 계획 중인 국내 기업들에게도 중요한 지원 자료가 될 것으로 예상된다.

 


  • 관련 기사 더보기

Pluto participates in the 'Korean-Foreign Language Parallel Corpus Construction Project'

Pluto announced on the 19th that it has participated in the 'Korean-Foreign Language Parallel Corpus Construction Project' hosted by the National Institute of the Korean Language for the fifth consecutive year. This project aims to build high-quality language data for the development of artificial intelligence (AI) technology, and focuses on protecting the data sovereignty of Korean language and culture and supporting the development of Korean-style AI technology.

Pluto has been carrying out this project for five consecutive years from 2021 to the present, recording a total of 11.5 billion won in orders and 55 million phrases built. This year's project is being carried out in cooperation with the Kyunghee University Industry-Academic Cooperation Foundation, and out of the total 4.2 billion won project, Pluto was in charge of building a parallel corpus worth 2.09 billion won. In this project, a parallel corpus of a total of 9 million phrases will be built for nine languages: Vietnamese, Indonesian, Thai, Hindi, Khmer, Tagalog, Russian, Uzbek, and English.

Through five years of business participation, Pluto has built language data essential for the development of AI-based translation software and natural language processing (NLP) technology. The built data will be used for technology development for the government-led development of language and culture industries, and in particular, by datafication of low-resource languages in the ASEAN-India and Eurasian regions, it is expected to resolve existing data imbalances and promote language and culture exchanges between countries.

Lee Jeong-su, CEO of Pluto, said, “It is meaningful that Pluto’s language data construction experience and expertise have been recognized and that we have been able to carry out the project for five consecutive years,” and added, “We will continue to supply high-quality language data and contribute to strengthening the global competitiveness of Korean artificial intelligence technology.”

The language data built through this project can be checked in the 'Everyone's Corpus', an integrated language information sharing system operated by the National Institute of the Korean Language, and is expected to be used as an important resource for research and technology development. It is also expected to be an important support material for domestic companies planning to advance into countries that use low-resource languages.


  • See more related articles

プリト、「韓国語 – 外国語並列馬束構築事業」参加

プリトが国立国語院が主管する「韓国語-外国語並列馬団構築事業」に5年連続参加したと19日明らかにした。この事業は人工知能(AI)技術開発のための高品質言語データ構築を目指し、韓国言語文化のデータ主権を守り、韓国型人工知能技術の発展を支援することに重点を置いている。

プリトは2021年から現在まで5年連続でこの事業を遂行し、合計115億ウォンの受注額と5千5百万個の語句を構築した実績を記録した。今年の事業は慶煕大学産学協力団と協力して進行され、総42億ウォン規模の事業のうち、プリトは20億9千万ウォン規模の並列杭構築を引き受けた。今回の事業では、ベトナム語、インドネシア語、タイ語、ヒンディー語、クメール語、タガログ語、ロシア語、ウズベク語、英語などの9つの言語に対して、合計900万語句の並列語束を構築する予定だ。

プレトは5年間の事業参加を通じて、AIベースの翻訳ソフトウェアおよび自然言語処理(NLP)技術開発に不可欠な言語データを構築してきた。構築されたデータは政府主導言語文化産業発展のための技術開発に活用される予定であり、特にASEAN-インドとユーラシア地域の低資源言語をデータ化することで既存のデータの不均衡を解消し、国家間の言語文化交流を促進するものと期待される。

イ・ジョンス・プリト代表は「プリトの言語データ構築経験と専門性を認められ、5年連続事業を遂行することになって重要だ」とし、「今後も高品質の言語データを継続的に供給して韓国型人工知能技術のグローバル競争力強化に寄与する」と述べた。

今回の事業を通じて構築された言語データは、国立国語院が運営する言語情報共有の統合システム「すべての言葉」で確認することができ、研究および技術開発のための重要なリソースとして活用される予定だ。また、低資源言語を使用する国に進出を計画している国内企業にとっても重要な支援資料になると予想される。


  • 関連記事をもっと見る

Pluto参与‘韩外平行语料库建设项目’

Pluto公司19日宣布,已连续5年参与国立国语院主办的“韩外语平行语料库建设项目”。该项目旨在为人工智能(AI)技术发展构建优质语言数据,致力于保护韩语文化数据主权、扶持韩式人工智能技术发展。

Pluto从2021年起连续5年实施该项目,累计订单金额达115亿韩元,建造量达5500万辆。今年的项目是与庆熙大学产学合作基金会合作开展的,在总价值42亿韩元的项目中,Pluto负责构建价值20.9亿韩元的平行语料库。该项目将建立越南语、印尼语、泰语、印地语、高棉语、他加禄语、俄语、乌兹别克语和英语九种语言的900万词平行语料库。

通过五年的业务参与,Pluto 积累了对基于人工智能的翻译软件和自然语言处理 (NLP) 技术开发至关重要的语言数据。所构建的数据将用于政府主导的语言文化产业发展的技术开发,特别是通过对东盟-印度和欧亚地区资源匮乏的语言进行数字化,有望解决现存的数据不平衡问题,促进各国之间的语言文化交流。

Pluto代表李正洙表示,“Pluto的语言数据构建经验和专业性得到认可,连续5年开展该项目,意义重大”,并表示,“今后也会继续提供优质语言数据,为加强韩国人工智能技术的全球竞争力做出贡献”。

通过本项目构建的语言数据可以在国立国语院运营的综合语言信息共享系统‘全民语料库’中查阅,并将作为研究和技术开发的重要资源。此外,预计它将成为国内企业进军语言资源匮乏的国家的重要支持材料。


  • 查看更多相关文章

Pluton participe au « Projet de construction de corpus parallèle coréen-langues étrangères »

Pluto a annoncé le 19 qu'il participait au « Projet de construction de corpus parallèle coréen-langue étrangère » organisé par l'Institut national de la langue coréenne pendant cinq années consécutives. Ce projet vise à créer des données linguistiques de haute qualité pour le développement de la technologie de l'intelligence artificielle (IA) et se concentre sur la protection de la souveraineté des données de la langue et de la culture coréennes et sur le soutien au développement de la technologie de l'intelligence artificielle de style coréen.

Pluto a mené ce projet pendant cinq années consécutives de 2021 à aujourd'hui, enregistrant un total de 11,5 milliards de wons de commandes et 55 millions de phrases construites. Le projet de cette année est mené en coopération avec la Fondation de coopération industrielle et académique de l'Université Kyunghee, et sur un projet total d'une valeur de 4,2 milliards de wons, Pluto était chargé de construire un corpus parallèle d'une valeur de 2,09 milliards de wons. Ce projet permettra de constituer un corpus parallèle de 9 millions de mots dans neuf langues : vietnamien, indonésien, thaï, hindi, khmer, tagalog, russe, ouzbek et anglais.

Au cours de cinq années d'implication dans le monde des affaires, Pluto a accumulé des données linguistiques essentielles au développement de logiciels de traduction basés sur l'IA et de technologies de traitement du langage naturel (NLP). Les données construites seront utilisées pour le développement technologique du secteur des langues et de la culture dirigé par le gouvernement, et en particulier, en numérisant les langues à faibles ressources dans les régions ASEAN-Inde et eurasienne, on s'attend à ce qu'elles résolvent les déséquilibres de données existants et favorisent les échanges linguistiques et culturels entre les pays.

Lee Jeong-su, PDG de Pluto, a déclaré : « Il est significatif que l'expérience et l'expertise de Pluto en matière de construction de données linguistiques aient été reconnues et que nous ayons pu mener à bien le projet pendant cinq années consécutives », et a ajouté : « Nous continuerons à fournir des données linguistiques de haute qualité et à contribuer au renforcement de la compétitivité mondiale de la technologie coréenne d'intelligence artificielle. »

Les données linguistiques construites grâce à ce projet peuvent être consultées dans le « Corpus de tous », un système intégré de partage d’informations linguistiques exploité par l’Institut national de la langue coréenne, et seront utilisées comme une ressource importante pour la recherche et le développement technologique. En outre, il devrait constituer un support important pour les entreprises nationales qui envisagent de s’implanter dans des pays utilisant des langues à faibles ressources.


  • Voir plus d'articles connexes
%d bloggers like this: