크라우드웍스, ‘국가대표 AI 프로젝트 데이터 공급 파트너’ 합류

AI 테크 기업 크라우드웍스가 대한민국 AI 기술 자립을 위한 ‘국가대표 AI’ 프로젝트에 합류한다고 24일 밝혔다.

과학기술정보통신부의 독자 AI 파운데이션 모델(독파모) 개발 사업 추가 공모에서 모티프테크놀로지스 컨소시엄이 선정되었으며, 크라우드웍스는 이 컨소시엄의 데이터 공급 핵심 파트너로 참여한다. LG AI연구원, SK텔레콤, 업스테이지 등과 함께 국내 AI 생태계를 선도하는 4대 정예팀의 일원으로 활동하게 된다.

크라우드웍스는 3,000억(300B) 파라미터급 추론형 거대언어모델(LLM) 개발에 필요한 고품질 데이터를 책임진다. 특히 단계별 추론(Chain-of-Thought) 학습 데이터셋 구축을 통해 모델의 논리적 추론과 전문 지식 학습 역량을 강화할 예정이다.

이를 위해 자체 개발한 비정형 문서 데이터 전처리 솔루션 ‘알피 날리지 컴파일러(Alpy Knowledge Compiler)’를 활용, 표와 차트 등 복잡한 구조의 문서를 AI가 이해 가능한 ‘AI-Ready’ 데이터로 변환한다. 해당 기술은 모델의 안정적 학습과 단계별 추론 수행에 필수적 역할을 할 것으로 평가된다.

크라우드웍스는 이전에도 국내 정예팀에 학습 데이터를 공급하며 도서, 방송영상 이해 데이터셋 구축 등 실전 역량을 검증받았다. 회사 측은 “국내 빅테크와 협업하며 축적한 데이터 정제 기술과 고품질 데이터 구축 노하우를 결집해 독자 AI 모델 개발을 완벽하게 지원할 것”이라고 밝혔다.

 


  • 관련 기사 더 보기

Crowdworks Joins National AI Project Data Supply Partners

AI tech company Crowdworks announced on the 24th that it is joining the 'National AI' project to achieve AI technology independence in Korea.

The Motif Technologies Consortium was selected for the Ministry of Science and ICT's additional public offering for the development of its own AI Foundation Model (Dokpamo), and Crowdworks will participate as a key data provider for the consortium. Along with LG AI Research Center, SK Telecom, and Upstage, the consortium will be part of four elite teams leading the domestic AI ecosystem.

Crowdworks will be responsible for providing the high-quality data required to develop a 300 billion (300B) parameter inference-type large-scale language model (LLM). Specifically, it plans to strengthen the model's logical reasoning and expert knowledge acquisition capabilities by building a chain-of-thought learning dataset.

To achieve this, Alpy utilizes its proprietary, unstructured document data preprocessing solution, "Alpy Knowledge Compiler," to convert complex documents, such as tables and charts, into AI-ready data. This technology is expected to play a vital role in ensuring stable model learning and step-by-step inference performance.

Crowdworks has previously proven its practical capabilities by providing training data to elite domestic teams, building datasets for understanding books and broadcast videos. The company stated, "By leveraging the data purification technology and high-quality data construction expertise accumulated through collaborations with domestic big tech companies, we will fully support the development of proprietary AI models."


  • See more related articles

クラウドワークスが「国家代表AIプロジェクトデータ供給パートナー」に参加

AIテック企業クラウドワークスが大韓民国AI技術自立のための「国家代表AI」プロジェクトに合流すると24日明らかにした。

科学技術情報通信部の独自AIファンデーションモデル(独派母)開発事業追加公募でモチーフテクノロジーコンソーシアムが選定され、クラウドワークスはこのコンソーシアムのデータ供給コアパートナーとして参加する。 LG AI研究院、SKテレコム、アップステージなどと共に国内AIエコシステムをリードする4大精鋭チームの一員として活動することになる。

クラウドワークスは、3,000億(300B)パラメータ級推論型巨大言語モデル(LLM)の開発に必要な高品質データを担当する。特に段階的推論(Chain-of-Thought)学習データセットの構築を通じて、モデルの論理的推論と専門知識学習能力を強化する予定だ。

このために自社開発した非定型文書データ前処理ソリューション「アルピーナレッジコンパイラ」を活用し、表やチャートなど複雑な構造の文書をAIが理解可能な「AI-Ready」データに変換する。この技術は、モデルの安定した学習と段階的な推論の実行に不可欠な役割を果たすと評価されています。

クラウドワークスは以前にも国内精鋭チームに学習データを供給し、図書、放送映像理解データセット構築など実戦能力を検証された。同社側は「国内ビッグテックと協業して蓄積したデータ精製技術と高品質データ構築ノウハウを結集し、独自のAIモデル開発を完全に支援する」と明らかにした。


  • 関連記事をもっと見る

Crowdworks加入国家人工智能项目数据供应合作伙伴

人工智能技术公司Crowdworks于 24 日宣布,将加入韩国的“国家人工智能”项目,以实现韩国人工智能技术的自主化。

Motif Technologies Consortium 入选韩国科学技术信息通信部 (MSICT) 的人工智能基础模型 (Dokpamo) 开发增发项目,Crowdworks 将作为该联盟的关键数据提供商参与其中。该联盟将与 LG AI 研究中心、SK Telecom 和 Upstage 一起,成为引领韩国国内人工智能生态系统的四大精英团队之一。

Crowdworks将负责提供开发一个拥有3000亿(3000亿)个参数的推理型大规模语言模型(LLM)所需的高质量数据。具体而言,该公司计划通过构建一个思维链学习数据集来增强该模型的逻辑推理和专家知识获取能力。

为了实现这一目标,Alpy 利用其专有的非结构化文档数据预处理解决方案“Alpy Knowledge Compiler”,将表格和图表等复杂文档转换为可用于人工智能的数据。这项技术有望在确保模型稳定学习和逐步推理性能方面发挥至关重要的作用。

Crowdworks此前已通过向国内顶尖团队提供训练数据、构建用于理解书籍和广播视频的数据集,证明了其实际应用能力。该公司表示:“我们将利用与国内大型科技公司合作积累的数据净化技术和高质量数据构建经验,全力支持自主人工智能模型的开发。”


  • 查看更多相关文章

Crowdworks rejoint les partenaires d'approvisionnement en données du projet national d'IA

La société de technologie d'IA Crowdworks a annoncé le 24 qu'elle rejoignait le projet « IA nationale » visant à atteindre l'indépendance technologique en matière d'IA en Corée.

Le consortium Motif Technologies a été sélectionné pour l'appel d'offres public supplémentaire du ministère des Sciences et des TIC en vue du développement de son propre modèle de base pour l'IA (Dokpamo). Crowdworks participera au consortium en tant que fournisseur de données clé. Aux côtés du centre de recherche en IA de LG, de SK Telecom et d'Upstage, le consortium fera partie des quatre équipes d'élite qui pilotent l'écosystème de l'IA en Chine.

Crowdworks sera chargé de fournir les données de haute qualité nécessaires au développement d'un modèle de langage à grande échelle (LLM) de type inférence, comportant 300 milliards de paramètres. Plus précisément, il prévoit de renforcer les capacités de raisonnement logique et d'acquisition de connaissances d'experts du modèle en constituant un ensemble de données d'apprentissage par la chaîne de pensée.

Pour ce faire, Alpy utilise sa solution propriétaire de prétraitement des données de documents non structurés, « Alpy Knowledge Compiler », afin de convertir des documents complexes, tels que des tableaux et des graphiques, en données exploitables par l'IA. Cette technologie devrait jouer un rôle essentiel pour garantir un apprentissage stable du modèle et des performances d'inférence optimales.

Crowdworks a déjà démontré son efficacité en fournissant des données d'entraînement à des équipes nationales de haut niveau et en constituant des ensembles de données pour la compréhension de livres et de vidéos. L'entreprise a déclaré : « Grâce à notre technologie de purification des données et à notre expertise en matière de construction de données de haute qualité, acquises lors de collaborations avec de grandes entreprises technologiques nationales, nous soutiendrons pleinement le développement de modèles d'IA propriétaires. »


  • Voir plus d'articles connexes
%d bloggers like this: