Google a lancé Gemini Embedding 2 , un nouveau modèle d'intégration capable d'intégrer des données textuelles et multimédias, via Google AI Studio . Cette mise à jour permet de mapper divers formats de données, tels que le texte, les images, la vidéo, l'audio et les PDF, dans un espace d'intégration unique et unifié.
Auparavant, des modèles distincts étaient nécessaires pour chaque type de données. Ce nouveau modèle simplifie l'architecture technologique en traitant le contenu multimodal au sein d'un seul modèle. Concrètement, lors de la création d'un système RAG (Retrieval Augmented Generation) multimodal, il permet de récupérer simultanément des informations provenant de différents types de fichiers, améliorant ainsi la précision et les performances de la recherche. De plus, il prend en charge la recherche intermodale, permettant aux requêtes textuelles de trouver des images, des fichiers audio et vidéo pertinents dans un index unique.
Les développeurs peuvent immédiatement invoquer le modèle via la méthode « embed_content » de l’API Gemini . Google recommande l’intégration avec les principales bases de données vectorielles telles que Vertex AI , Weaviate , Qdrant et ChromaDB afin de stocker et d’indexer efficacement les données d’intégration multidimensionnelles générées.
Ce modèle est actuellement disponible en version préliminaire, et les spécifications techniques détaillées ainsi que les instructions d'utilisation sont disponibles dans la documentation officielle .
- Voir plus d'articles connexes
🏷️ [Mots-clés recommandés pour l'IA] : Google, Gemini Embedding 2, multimodal, RAG, recherche sémantique, modèle d'IA, intégration, traitement des données, API Gemini, base de données vectorielles, intelligence artificielle, apprentissage automatique, traitement automatique du langage naturel