AI 테크 기업 크라우드웍스가 자사 AI 데이터 전처리 솔루션 ‘알피 널리지 컴파일러(Alpy Knowledge Compiler)’에 적용된 핵심 기술인 ‘문서 복잡도 분석 기반 문서 자동화 처리 기술’에 대한 특허를 출원했다고 22일 밝혔다. 해당 기술은 RAG(Retrieval-Augmented Generation) 기반 AI 에이전트 개발에 필수적인 비정형 데이터 전처리 과정에서 문서의 구조적 복잡성을 정량적으로 분석해 자동화 적용 여부를 판단하는 방식이다. 전처리 품질 저하 및 자원 낭비를 방지하고, 문서 유형에 따라 전문가 투입 여부를 사전에 결정함으로써 작업 효율성과 비용 최적화를 도모할 수 있다. 크라우드웍스에 따르면, 이 기술은 문서의 복잡도에 따라 Class 1부터 Class 4까지 네 단계로 분류하고, 단순 구조의 문서는 자동화 전처리 방식으로, 복잡한 구조의 문서는 전문가 파싱을 병행하는 기준을 제시한다. 이를 통해 데이터 전처리 오류 발생 가능성을 예측하고, 인력 및 일정 관리에도 활용 가능하다는 설명이다. 해당 기술은 현재 크라우드웍스의 자체 개발 솔루션인 ‘알피 널리지 컴파일러’에 적용되어 운영 중이다. 이 솔루션은 OCR(광학문자판독), 파싱, 청킹 기능을 기반으로 다양한 형식의 문서를 AI가 학습 가능한 형태로 변환하며, 한글(HWP/HWPX), PDF, 워드, 엑셀 등 다수의 문서 포맷을 지원한다. 테이블 내 중첩 구조나 차트, 이미지 등 시각적 요소까지 인식해 메타데이터를 생성하며, LLM(초대형 언어모델) 및 VLM(비전언어모델)을 활용한 고도화된 처리 기능도 제공할 예정이다. 최근 비정형 데이터의 자산화에 대한 기업 수요가 증가함에 따라, 크라우드웍스는 해당 솔루션을 통해 국내외 다양한 산업군의 전처리 수요에 적극 대응하고 AI 기반 업무 자동화 분야에서의 경쟁력을 강화해 나갈 방침이다. 김우승 크라우드웍스 대표는 “이번 특허 출원은 문서 복잡도 분석 기반 기술을 통해 데이터 전처리의 정밀성과 효율성을 높인 첫 사례로, AI 데이터 전처리 전문기업으로서의 차별화를 입증하는 계기”라며 “알피 널리지 컴파일러는 현재 다양한 기업의 문의가 이어지고 있으며, 기업용 AI 시장에서의 적용 확대가 기대된다”고 밝혔다. 관련 기사 더보기 https://www.venturesquare.net/964024