
Un article de recherche impliquant le spécialiste en sécurité de l'IA Aim Intelligence a été accepté pour la session principale de l'ICLR 2026, une conférence académique internationale dans le domaine de l'intelligence artificielle.
Aim Intelligence a annoncé le 27 que son article intitulé « Jailbreaking on Text-to-Video Models via Scene Splitting Strategy », analysant les vulnérabilités de sécurité des modèles de conversion texte-vidéo (T2V), a été officiellement accepté par ICLR 2026. ICLR est une conférence académique présentant les résultats de recherche les plus récents dans les domaines de l'apprentissage automatique et de l'apprentissage profond. Cette année, environ 19 000 articles ont été soumis, dont environ 28 % ont été acceptés.
Récemment, les modèles T2V, tels que Veo2 de Google DeepMind, Luma Ray2 et Hailuo, qui génèrent des images uniquement à partir de texte, se sont rapidement répandus. Cependant, la recherche systématique sur la vérification de la sécurité de ces modèles de génération d'images est encore jugée embryonnaire. Dans ce contexte, l'équipe de recherche a analysé les vulnérabilités structurelles susceptibles de contourner les filtres de sécurité des modèles T2V.
La technique « SceneSplit » proposée dans l’article consiste à diviser un stimulus inapproprié en plusieurs scènes individuelles, puis à les combiner successivement en versions inoffensives. L’étude a révélé que même si les scènes prises individuellement passent le filtre de sécurité, le contexte global peut potentiellement entraîner des violations de la politique lorsque ces scènes sont reliées entre elles.
Par exemple, la combinaison de descriptions apparemment anodines comme « fumée s'élevant dans le ciel », « personnes allongées au sol » et « liquide rouge » peut, une fois assemblées, évoquer une scène d'explosion. Cela suggère que les filtres de sécurité actuels, lorsqu'ils se concentrent sur des éléments isolés ou des scènes spécifiques, ne rendent pas compte de manière adéquate du contexte narratif global.
L'équipe de recherche a évalué cinq modèles T2V à l'aide de 220 incitations réparties en 11 catégories de sécurité, dont la pornographie, la violence et les activités illégales. Les résultats ont montré que les attaques basées sur SceneSplit atteignaient un taux de réussite de 70 à 80 %, nettement supérieur au taux de réussite de 0 à 10 % des attaques existantes basées sur une seule incitation.
Cette étude est importante en ce qu'elle suggère la nécessité de faire progresser l'évaluation de la sécurité de l'IA de génération vidéo au-delà de l'approche statique centrée sur le blocage par mots-clés, vers une compréhension globale du contexte et de la structure narrative entre les scènes.
Cette recherche a été menée conjointement par Park Ha-eon, directeur technique d'AimIntelligence, et des chercheurs de l'université Yonsei, de l'Institut coréen des sciences et technologies (KIST) et de l'université nationale de Séoul, sous la direction du professeur Kim Soo-hyun de l'université Kyung Hee. L'article est disponible sur arXiv.
Le directeur technique Park Ha-eon a déclaré qu'à mesure que l'IA générative s'étend à l'IA multimodale et physique, le système de vérification de la sécurité doit également évoluer vers une évaluation structurelle et contextuelle, et qu'il continuera à mener des recherches préventives sur les vulnérabilités structurelles des systèmes d'IA générative et à faire progresser les technologies de réponse.
- Voir plus d'articles connexes
You must be logged in to post a comment.