Lecture hors ligne sans enregistrer la vidéo : comment Kisun Song, PDG de MAZE, gère les données.

Une approche d'IA de vision qui analyse en temps réel les séjours, les revisites et les schémas de déplacement sans stocker de vidéo.

S'étendant du marché MICE au marché des petites entreprises, en se concentrant sur sa solution principale, « Live Review ».

-Transition vers le SaaS en cours, reliant les données hors ligne à la publicité, au CRM et à la prise de décision.

Les espaces physiques ont toujours été des « données vides ». Si les clics et les défilements restent en ligne, les détails concernant les clients (qui était assis où, qui les accompagnait, et combien de temps ils sont restés dans un magasin) disparaissent en grande partie. Il ne reste généralement que les images de vidéosurveillance. Mais dès lors que ces images sont stockées, elles deviennent un coût, des informations personnelles et un frein à l'évolutivité.

C’est pourquoi MAZE, une start-up visionnaire spécialisée en IA, a fait de l’absence de stockage vidéo une condition préalable à son développement dès le départ. Son PDG, Kisun Song, résume cela en une phrase.

« Ne laissez que des souvenirs, pas des images. »

Kisun Song, PDG de MAZE

Pour lui, ce choix ne relève pas d'une simple « déclaration morale ». La numérisation des expériences client hors ligne est essentielle, car les caméras restent indispensables. Le défi réside dans le fait que, « si l'on ne peut cesser de filmer, il faut trouver un équilibre en interprétant et en supprimant immédiatement les images reçues ». Le PDG, Song, transforme les espaces physiques non pas grâce à une « IA qui voit plus », mais grâce à des « structures de données qui ne conservent que l'essentiel ». Sa solution privilégie la faible consommation d'énergie à la haute performance , l'éthique à la précision et le temps réel à l'accumulation.

La question qui a surgi à l'aéroport : « Et si nous disposions de données d'activité hors ligne ? »

Après des études d'ingénierie aérospatiale à l'Université nationale de Séoul, il a poursuivi ses recherches doctorales au Georgia Institute of Technology. Ses travaux portaient sur la mise au jour des « lois fondamentales » du réseau de l'aviation civile américaine. Le point de départ de Song n'était pas les magasins, mais les aéroports. Pourquoi les aéroports sont-ils aménagés de cette façon ? Pourquoi les compagnies aériennes fusionnent-elles et font-elles des acquisitions ? Comment se forment les plateformes de correspondance ? Dans quelles conditions les vols directs et les vols avec correspondance diffèrent-ils ?

Finalement, pour décrypter ce système complexe, il fallait accéder aux données de déplacement des personnes. Or, l'aviation ne divulgue pas facilement ces données. Cela nécessite un échantillon limité, de nombreuses hypothèses et une série d'inférences pour pallier les omissions. Au fil de ce processus, il acquit la conviction suivante : dès que les données d'activité hors ligne seront disponibles, le monde pourra être décrit et prédit avec une précision bien supérieure.

Et cette conviction s'étendait même aux petits désagréments du quotidien. « Je suis allée chez le coiffeur et j'ai réalisé que je devrais attendre une heure et demie. Si j'avais su, je n'y serais pas allée. » « S'il n'y a pas de place assise dans un café où je vais en voiture, ce n'est pas un cas isolé. »

Le problème des expériences hors ligne a toujours été le même : les informations nécessaires à la prise de décision arrivent trop tard. À l’instar de la navigation, si l’on pouvait « savoir avant de partir », on pourrait réduire les choix inutiles, mais c’est difficile dans un environnement hors ligne.

Une conception paradoxale qui a débuté par le constat suivant : « L’IA ne peut pas générer de revenus ».

Le refus de MAZE d'un système massif de stockage et d'apprentissage vidéo ne se résume pas à une simple question d'économies. Son PDG, Song, explique : « Dès lors que le stockage de flux vidéo, l'étiquetage à grande échelle et les coûts de stockage/cloud entrent en ligne de compte, il devient structurellement difficile pour les startups d'être rentables. » Par conséquent, au lieu d'accumuler des séquences vidéo pour atteindre une « précision à 100 % », MAZE a choisi de prendre des décisions basées sur un minimum d'informations, uniquement lorsque cela s'avère nécessaire.

Deux points essentiels sont à retenir. Premièrement, il doit être possible de réidentifier une personne sans stocker la vidéo. MAZE explique avoir développé un algorithme qui associe rapidement des individus identiques sans données d'apprentissage, sans recourir à la reconnaissance faciale. Même dans des environnements à forte affluence, comme les expositions, il permet de réduire en temps réel les fausses identifications et d'analyser les parcours de visite.
Deuxièmement, l'ensemble du processus doit être réalisé en périphérie du réseau. La contrainte selon laquelle « les vidéos ne sont pas stockées, donc si vous ne les extrayez pas à ce moment-là, vous perdez l'opportunité » a en réalité forcé la conception du produit à être plus rigoureuse.

Par conséquent, MAZE a opté pour une stratégie où, même si son IA basée sur l'image atteignait une précision de 80 à 90 %, elle sacrifiait les 10 % restants pour répartir ses données sur une zone beaucoup plus vaste à un coût cent fois inférieur. L'orientation de la technologie est ainsi passée de « collecter plus » à « collecter moins et mieux utiliser ».

Du tourisme d'affaires (MICE) aux petites entreprises, et la prochaine étape du « CRM hors ligne »

Ce concept est intégré à la solution d'intelligence artificielle de vision de MAZE, « Live Review ». Live Review est une solution d'analyse du comportement client qui analyse en temps réel le temps passé par les visiteurs, leurs visites répétées et leurs déplacements dans les espaces physiques, sans enregistrement vidéo. Le PDG, M. Song, explique : « La solution n'enregistre pas d'images, mais interprète le parcours des visiteurs au sein de l'espace. » Ce service a d'abord été déployé dans des espaces où le consentement était techniquement possible. Les environnements tels que le MICE (Meetings, Incentives, and incentives), où la prise de vue et la collecte de données sont clairement annoncées, représentaient le marché idéal pour MAZE. M. Song précise : « Nous avons pu le commercialiser en premier lieu dans des établissements où le consentement explicite était obtenu à l'entrée. »

Depuis, MAZE s'est implantée dans le secteur des petites entreprises et de la restauration. Une preuve de concept récente, menée à Reno (Nevada, États-Unis), a permis d'analyser en temps réel le flux de milliers de visiteurs sur une période de trois semaines. Le PDG, Song, explique : « Dans le respect de la législation en vigueur, nous pouvons décrypter les comportements en observant simplement la présence d'un utilisateur dans le champ de vision de la caméra pendant un certain temps. »

BM évolue également du modèle à la demande vers le SaaS. Cette transition dépasse l'analyse ponctuelle ou l'utilisation événementielle pour permettre aux magasins de surveiller et d'exploiter en continu les données afin d'éclairer leurs décisions. Le PDG, Song, explique : « Pour prospérer, les données hors ligne doivent impérativement être réutilisables, et même une augmentation de 1 % des ventes démontre immédiatement leur valeur. »

Le « CRM hors ligne » qu'il envisage va bien au-delà de la simple analyse des points de vente. Le PDG, Song, résume les limites des plateformes en ligne en déclarant : « Attirer les clients est le plus difficile. » Contrairement à Netflix, qui mise sur la fidélisation, inciter les utilisateurs à ouvrir une application est devenu de plus en plus coûteux et complexe. C'est pourquoi il considère les plateformes hors ligne comme de « nouvelles plateformes publicitaires et de conversion ».
Le temps passé en magasin, l'attente pour leurs commandes et les moments passés à table sont tous liés à des contenus et des offres personnalisés. Lorsqu'une conversion a lieu, les commerçants reçoivent des récompenses et les annonceurs sont rémunérés en fonction des performances. C'est de là que vient l'expression « une nouvelle plateforme publicitaire qui va au-delà des simples notifications push ».

Des analyses en direct permettent d'étudier les déplacements des clients et leur temps de présence en magasin.

La prochaine étape sera celle des lunettes intelligentes et des humanoïdes.

La prochaine orientation produit de MAZE est axée sur des applications plus généralistes. Son PDG, Song, anticipe une croissance exponentielle des appareils équipés de capteurs de vision. Dans un contexte où lunettes intelligentes, drones, robots, tablettes et divers appareils photo génèrent simultanément des vidéos, il affirme que « l'analyse centralisée de dizaines de milliers d'images deviendra impossible ». La solution réside en définitive dans une reconnaissance ultra-rapide et à très faible consommation en périphérie du réseau, ainsi que dans une collecte de données minimale.

Le PDG Song explique qu'il ne s'agit pas d'une solution limitée à certains magasins ou secteurs d'activité, mais plutôt d'une base pour une technologie de reconnaissance applicable partout. Il envisage une structure fournissant des SDK ou des API, permettant l'accès à divers appareils et services selon les besoins. Il explique que pour interagir avec les humains, les humanoïdes et les dispositifs portables doivent être capables de « comprendre et de se souvenir de la personne qui se trouve devant eux », et que la technologie de reconnaissance basse consommation développée par MAZE peut servir de fondement à ce processus.

Du local au global, du limité à l'universel

Depuis sa création en 2022, MAZE a levé plus de 1,1 milliard de wons d'investissements cumulés et est actuellement en phase de levée de fonds de pré-série A. Son PDG, Song, n'exclut pas la possibilité d'acquisitions ou d'une expansion axée sur le marché américain. Sa stratégie en trois volets pour cette année est également marquante : d'abord, passer du local au global ; ensuite, d'une offre limitée à une offre universelle ; et enfin, du modèle à la demande au SaaS.

Ce qui est intéressant, c'est que sa vision à long terme ne se limite pas à « MAZE ». Il envisage une structure de holding à long terme similaire à Alphabet. Il a également évoqué « un système de transport aérospatial civil pouvant être mis en œuvre à l'aide de théories éprouvées » comme prochaine idée de start-up. Son raisonnement est le suivant : tout comme les communications ont transformé nos vies, les évolutions des transports redessineront le cours de l'histoire de la société.

Le PDG Kisun Song pose devant les bureaux de MAZE.

Les données hors ligne ont longtemps constitué un « espace vide », mais MAZE ne se contente pas de combler ce manque. Son objectif est de transformer ces données en une base de données : sans les stocker, avec moins de données collectées, mais avec une utilisation plus large.

En définitive, la question que pose MAZE dépasse la simple compétition pour la performance ou la précision technologiques. Pour comprendre le monde hors ligne, l'entreprise se demande : « Quelle quantité de données devons-nous collecter ? » et « Quelles données devons-nous être prêts à supprimer ? » Son point de vue – selon lequel les données ne sont pas intrinsèquement plus puissantes à mesure qu'elles sont collectées, mais qu'elles ne le deviennent que lorsqu'elles sont exploitées à des fins spécifiques – se reflète systématiquement dans toutes les décisions de MAZE.

L'idée de MAZE, qui permet de lire hors ligne sans vidéo, est désormais considérée comme une option et une nouvelle norme pour la gestion des données hors ligne.