谷歌通过Google AI Studio发布了Gemini Embedding 2 ,这是一种能够整合文本和多媒体数据的新型嵌入模型。此次更新使得用户可以将文本、图像、视频、音频和 PDF 等多种数据格式映射到一个统一的嵌入空间中。
以往,每种数据类型都需要单独的模型,但这种新模型通过在单个模型中处理多模态内容,简化了技术栈。具体来说,在构建多模态 RAG(检索增强生成)系统时,它可以同时从各种文件类型中检索信息,从而提高搜索的准确性和性能。此外,它还支持跨模态搜索,使文本查询能够在单个索引中查找相关的图像、音频和视频片段。
开发者可以通过Gemini API的“embed_content”方法立即调用该模型。谷歌建议与主流向量数据库(例如Vertex AI 、 Weaviate 、 Qdrant和 ChromaDB)集成,以便高效地存储和索引生成的高维嵌入数据。
该模型目前以预览版形式提供,详细的技术规格和使用说明可在官方文档中找到。
- 查看更多相关文章
🏷️ [AI推荐标签]: Google、Gemini Embedding 2、多模态、RAG、语义搜索、AI模型、嵌入、数据处理、Gemini API、向量数据库、人工智能、机器学习、自然语言处理