구글은 텍스트와 멀티미디어 데이터를 통합 처리할 수 있는 새로운 임베딩 모델인 Gemini Embedding 2를 Google AI Studio를 통해 공개했다. 이번 업데이트는 텍스트, 이미지, 비디오, 오디오, PDF 등 서로 다른 형식의 데이터를 하나의 통합된 임베딩 공간으로 매핑하는 기능을 제공한다.
기존에는 각 데이터 유형별로 별도의 모델을 사용해야 했으나, 이번 모델은 단일 모델 내에서 멀티모달 콘텐츠를 처리할 수 있어 기술 스택을 간소화한다. 특히 멀티모달 RAG(검색 증강 생성) 시스템 구축 시 다양한 파일 유형에서 정보를 동시에 검색하여 검색 정확도와 성능을 높일 수 있다. 또한, 텍스트 쿼리를 통해 관련 이미지나 오디오, 비디오 클립을 찾아내는 교차 모달 검색 기능을 단일 인덱스에서 지원한다.
개발자는 Gemini API의 ’embed_content’ 메서드를 통해 해당 모델을 즉시 호출할 수 있다. 구글은 생성된 고차원 임베딩 데이터를 효율적으로 저장하고 인덱싱하기 위해 Vertex AI, Weaviate, Qdrant, ChromaDB 등 주요 벡터 데이터베이스와의 연동을 권장하고 있다.
이번 모델은 현재 프리뷰 버전으로 제공되며, 자세한 기술 사양과 사용법은 공식 문서에서 확인할 수 있다.
- 관련 기사 더 보기
🏷️ [AI 추천 태그]: 구글, Gemini Embedding 2, 멀티모달, RAG, 시맨틱 검색, AI 모델, 임베딩, 데이터 처리, Gemini API, 벡터 데이터베이스, 인공지능, 머신러닝, 자연어 처리
Google Unveils Gemini Embedding 2, a Multimodal Data Integration Platform
Google has released Gemini Embedding 2 , a new embedding model capable of integrating text and multimedia data, through Google AI Studio . This update provides the ability to map diverse data formats, such as text, images, video, audio, and PDFs, into a single, unified embedding space.
Previously, separate models were required for each data type, but this new model streamlines the technology stack by processing multimodal content within a single model. Specifically, when building a multimodal RAG (Retrieval Augmented Generation) system, it can simultaneously retrieve information from various file types, improving search accuracy and performance. Furthermore, it supports cross-modal search, enabling text queries to find relevant images, audio, and video clips within a single index.
Developers can immediately invoke the model via the Gemini API 's 'embed_content' method. Google recommends integration with major vector databases such as Vertex AI , Weaviate , Qdrant , and ChromaDB to efficiently store and index the generated high-dimensional embedding data.
This model is currently available as a preview version, and detailed technical specifications and usage instructions can be found in the official documentation .
- See more related articles
🏷️ [AI Recommended Tags]: Google, Gemini Embedding 2, multimodal, RAG, semantic search, AI model, embedding, data processing, Gemini API, vector database, artificial intelligence, machine learning, natural language processing
Googleがマルチモーダルデータ統合を処理する「ジェミナイ埋め込み2」を公開
Googleは、テキストとマルチメディアデータを統合処理できる新しい埋め込みモデルであるGemini Embedding 2をGoogle AI Studioを通じて公開した。このアップデートは、テキスト、画像、ビデオ、オーディオ、PDFなど、さまざまな形式のデータを単一の統合埋め込みスペースにマッピングする機能を提供します。
従来は各データタイプごとに別々のモデルを使用しなければならなかったが、今回のモデルは単一モデル内でマルチモーダルコンテンツを処理でき、技術スタックを簡素化する。特に、マルチモーダルRAG(検索拡張生成)システム構築時に、さまざまなファイルタイプから情報を同時に検索して検索精度と性能を高めることができる。また、テキストクエリを通じて関連画像やオーディオ、ビデオクリップを見つけるクロスモーダル検索機能を単一のインデックスでサポートする。
開発者はGemini APIの 'embed_content'メソッドを介してそのモデルをすぐに呼び出すことができます。 Googleは、生成された高次元埋め込みデータを効率的に保存してインデックス化するために、Vertex AI 、 Weaviate 、 Qdrant 、 ChromaDBなどの主要なベクトルデータベースとの連携を推奨しています。
今回のモデルは現在プレビュー版で提供されており、詳細な技術仕様と使い方は公式文書で確認することができる。
- 関連記事をもっと見る
🏷️[AIおすすめタグ]: Google、Gemini Embedding 2、マルチモーダル、RAG、セマンティック検索、AIモデル、埋め込み、データ処理、Gemini API、ベクターデータベース、人工知能、機械学習、自然言語処理
谷歌发布 Gemini Embedding 2,一个多模态数据集成平台
谷歌通过Google AI Studio发布了Gemini Embedding 2 ,这是一种能够整合文本和多媒体数据的新型嵌入模型。此次更新使得用户可以将文本、图像、视频、音频和 PDF 等多种数据格式映射到一个统一的嵌入空间中。
以往,每种数据类型都需要单独的模型,但这种新模型通过在单个模型中处理多模态内容,简化了技术栈。具体来说,在构建多模态 RAG(检索增强生成)系统时,它可以同时从各种文件类型中检索信息,从而提高搜索的准确性和性能。此外,它还支持跨模态搜索,使文本查询能够在单个索引中查找相关的图像、音频和视频片段。
开发者可以通过Gemini API的“embed_content”方法立即调用该模型。谷歌建议与主流向量数据库(例如Vertex AI 、 Weaviate 、 Qdrant和 ChromaDB)集成,以便高效地存储和索引生成的高维嵌入数据。
该模型目前以预览版形式提供,详细的技术规格和使用说明可在官方文档中找到。
- 查看更多相关文章
🏷️ [AI推荐标签]: Google、Gemini Embedding 2、多模态、RAG、语义搜索、AI模型、嵌入、数据处理、Gemini API、向量数据库、人工智能、机器学习、自然语言处理
Google dévoile Gemini Embedding 2, une plateforme d'intégration de données multimodales
Google a lancé Gemini Embedding 2 , un nouveau modèle d'intégration capable d'intégrer des données textuelles et multimédias, via Google AI Studio . Cette mise à jour permet de mapper divers formats de données, tels que le texte, les images, la vidéo, l'audio et les PDF, dans un espace d'intégration unique et unifié.
Auparavant, des modèles distincts étaient nécessaires pour chaque type de données. Ce nouveau modèle simplifie l'architecture technologique en traitant le contenu multimodal au sein d'un seul modèle. Concrètement, lors de la création d'un système RAG (Retrieval Augmented Generation) multimodal, il permet de récupérer simultanément des informations provenant de différents types de fichiers, améliorant ainsi la précision et les performances de la recherche. De plus, il prend en charge la recherche intermodale, permettant aux requêtes textuelles de trouver des images, des fichiers audio et vidéo pertinents dans un index unique.
Les développeurs peuvent immédiatement invoquer le modèle via la méthode « embed_content » de l’API Gemini . Google recommande l’intégration avec les principales bases de données vectorielles telles que Vertex AI , Weaviate , Qdrant et ChromaDB afin de stocker et d’indexer efficacement les données d’intégration multidimensionnelles générées.
Ce modèle est actuellement disponible en version préliminaire, et les spécifications techniques détaillées ainsi que les instructions d'utilisation sont disponibles dans la documentation officielle .
- Voir plus d'articles connexes
🏷️ [Mots-clés recommandés pour l'IA] : Google, Gemini Embedding 2, multimodal, RAG, recherche sémantique, modèle d'IA, intégration, traitement des données, API Gemini, base de données vectorielles, intelligence artificielle, apprentissage automatique, traitement automatique du langage naturel