Crowdworks,“文档复杂性分析”技术专利申请

人工智能科技公司Crowdworks 22日宣布,已申请其人工智能数据预处理解决方案“Alpy Knowledge Compiler”的核心技术“基于文档复杂度分析的文档自动化处理技术”专利。

该技术定量分析文档的结构复杂性,并确定是否可以在基于检索增强生成 (RAG) 开发 AI 代理所必需的非结构化数据预处理过程中应用自动化。根据文档类型提前决定是否需要专家参与,可以防止预处理质量下降和资源浪费,提高工作效率和优化成本。

据Crowdworks介绍,该技术根据文档的复杂程度将文档分为1类至4类四个级别,并提出了对结构简单的文档进行自动预处理、对结构复杂的文档进行专家解析的标准。这可用于预测数据预处理错误的可能性,也可用于人力资源和进度管理。

该技术目前正在Crowdworks自主研发的解决方案“RP Knowledge Compiler”中应用和运行。该解决方案基于OCR(光学字符识别)、解析和分块功能将各种文档格式转换为AI可学习的格式,并支持韩语(HWP/HWPX)、PDF、Word和Excel等多种文档格式。它将通过识别表格中的嵌套结构、图表和图像等视觉元素来生成元数据,还将使用 LLM(大型语言模型)和 VLM(视觉语言模型)提供高级处理功能。

随着近期企业对非结构化数据资产管理的需求不断增加,Crowdworks 计划通过其解决方案积极响应国内外各行业的预处理需求,并加强其在基于人工智能的工作自动化领域的竞争力。

Crowdworks首席执行官金宇胜表示:“此次专利申请是通过基于文档复杂性分析的技术提高数据预处理精度和效率的首个案例,也是证明我们作为专业AI数据预处理公司差异化优势的机会。”他补充道:“我们目前正在收到来自各个公司关于 RPI 知识编译器的询问,我们期待其在企业 AI 市场中得到更广泛的应用。”


  • 查看更多相关文章