Telepix 的航空航天领域搜索模型在全球人工智能性能评估中排名第二。

全球搜索基准测试RTEB中,参数少于10亿模型排名全球第二
开发了我们自己的多语言航空航天领域特定搜索基准 Stella ”。

综合空间人工智能解决方案公司 TelePIX(CEO 赵成益)于 3 日宣布,其能够准确搜索航空航天技术文档的人工智能模型“PIXIE-v1.0”在全球性能评估中名列前茅。

PIXIE 1.0 是一款专为航空航天领域设计的检索模型,旨在支持对航空航天、卫星和国防等领域高度专业化的技术文档进行基于语义的检索。它旨在简化对海量航空航天技术文档(包括卫星设计文档、技术规范和操作手册)的自然语言查询检索。PIXIE 1.0 的开发是为了提升卫星智能体 AI 解决方案 SatCHAT 的性能,在之前发布的 PIXIE-Preview 的基础上,重点在于对特定领域的检索性能进行定量验证。

该模型最近在 Hugging Face 平台发布的全球搜索基准测试——检索嵌入基准测试 (RTEB) 中排名全球第二,位列参数量少于 10 亿的模型类别中。该类别涵盖了众多由全球大型科技公司和研究机构发布的嵌入模型。

RTEB 是新一代搜索基准测试,它扩展了现有的文本嵌入模型评估标准——大规模文本嵌入基准测试 (MTEB)。与专注于测试数据驱动的分数竞争不同,RTEB 侧重于评估人工智能模型在真实工业环境中的信息检索性能。它可以验证基于法律、金融、医疗和代码等高难度领域的模型的实际工业应用性。

虽然大多数模型(包括该领域的顶级模型)都是涵盖法律、金融、医学和代码等多个领域的通用模型,但 Telefix 的 Pixie 1.0 尽管专注于航空航天领域和韩英技术文档,却取得了全球顶尖的性能。

该公司表示,这些结果表明,无需简单地扩大模型规模,只需通过特定领域的数据优化和提升学习质量,即可实现高搜索性能。该公司特别解释说,即使在充斥着技术术语和缩写的航空航天文档环境中,基于语义的搜索也能可靠地运行,这证实了其在工业应用方面的潜力。

此外,Telepix 还使用其自主研发的搜索基准“STELLA”进行了额外评估,以验证 Pixie 1.0 在包括韩语在内的多语言航空航天领域的搜索性能,这些领域并未被 RTEB 直接覆盖。结果证实,Pixie 1.0 在其参数范围内展现出卓越的搜索准确率,并稳定具备特定语言和领域的搜索能力。STELLA 是一个基于专业航空航天文档构建的多语言信息检索基准,旨在弥补航空航天领域公开搜索评估标准几乎完全缺失的实际不足。

Telepix 已将 Pixie 1.0 开源,并期望它能作为基于检索增强生成 (RAG) 的 AI 系统中专门技术文档检索的核心模型。

Telepix 数据科学主管权达荣赛 (Kwon Darong-sae) 表示:“此次发布的 Pixie 1.0 延续了预览阶段的发展方向,但更加注重稳定地提升航空航天领域的搜索性能,并在性能评估中取得了优异的成绩。我们期望 Pixie 和 Stella 能为未来特定领域的信息检索研究和实际应用提供基础数据。” 他补充道:“作为一家专注于航天领域的 AI 软硬件一体化解决方案公司,Telepix 计划致力于改进可在实际卫星行业中有效应用的 AI 模型和解决方案。”