
Crowdworks 16日宣布,在16日上午于COEX举行的由韩国科学技术院(KAIST)人工智能研究生院金在哲教授主持的“人工智能技术说明会”上,分享了最新的人工智能技术趋势,并介绍了其数据预处理技术。
本次技术说明会旨在向业界和公众介绍韩国科学技术院正在研究的人工智能核心技术,促进人工智能技术的普及和产学研合作的活跃。本次活动是‘2025年国际人工智能博览会(AI EXPO KOREA)’的一部分,Crowdworks应KAIST的邀请参加了此次演讲。
Crowdworks CTO杨秀烈就“CEO很会读的金经理的报告,为什么AI读不懂?”这一有趣的话题进行了演讲。
CTO杨先生解释道,“虽然AI可以读取通用的文档格式,但要理解文档中所蕴含的‘含义’并将其提取为元数据,仍然并不容易。”他继续说道:“图表等视觉元素必须超越简单的解释,考虑周围句子和段落的上下文来配置基于含义的元数据,以便人工智能能够准确检索相关信息并提高响应质量。”
他继续说道,“由于我国文献有其独特的风格和结构,直接使用国外的解析器会导致很多错误”,并强调,“我们需要体现国内文献的这些特点,通过对表格和视觉元素进行精准的解析和处理,实现高精度”。
与此同时,该公司还推出了自己的解决方案“Alpy Knowledge Compiler”,它可以将各种非结构化文档预处理成适合 RAG(检索增强生成)的形式。该解决方案对文档中的表格、图表、图像等进行基于LMM(大型多模态模型)的分析,并添加语义元数据,以提高搜索准确性和查询响应质量。特别是,在业界首次应用能够量化文档复杂度的自我评估指标,系统地分析文档结构,从而减少数据预处理错误的可能性,并有效地管理人力和预算。
- 查看更多相关文章
You must be logged in to post a comment.