Développement d'une solution mpAB qui distingue et supprime automatiquement le bruit et la voix de l'utilisateur sans réglage séparé, tout en modifiant librement l'emplacement du microphone.
– Applicable à divers domaines tels que l'automobile, la robotique, les maisons intelligentes, les bornes interactives et l'Internet des objets domestiques.
– Mise à disposition de l'application « Clean Ear » pour les personnes malentendantes
– Largement utilisé dans la vie quotidienne, notamment pour les bornes interactives sans barrières, la vidéoconférence et les comptes rendus de réunion.
Parfois, lorsque je donne des instructions à mon enceinte connectée, rien ne se passe. Quel pourrait être le problème ?
Les conversations avec l'IA sont devenues monnaie courante. Si les capacités de reconnaissance vocale de l'IA se sont améliorées, ses applications pratiques restent confrontées à des défis. Même avec des capacités de reconnaissance vocale supérieures, les environnements réels sont souvent saturés de bruits divers, ce qui les rend inutilisables si ces bruits ne peuvent être maîtrisés.
Les recherches en reconnaissance vocale évaluent les performances dans des environnements contrôlés, c'est-à-dire des situations propres où le bruit est quasiment éliminé. Or, les environnements vocaux réels sont bien différents. Les bruits de fond, comme la télévision dans un salon, le murmure d'un café, le bourdonnement d'une usine ou le vrombissement d'un moteur de voiture, sont captés par le microphone et perturbent le signal.
Une entreprise s'attaque au problème du dysfonctionnement des interfaces vocales IA dans les environnements bruyants du quotidien. mpWAV se concentre sur les technologies de prétraitement afin de créer un environnement propice au bon fonctionnement de l'IA, plutôt que sur une « IA de reconnaissance vocale améliorée ».
Le PDG Park Hyung-min a obtenu son doctorat en traitement du signal vocal à KAIST et a travaillé comme chercheur à l'Institut de recherche en technologies du langage de l'Université Carnegie Mellon. Nommé professeur au département de génie électrique de l'Université Sogang en 2007, il se consacre depuis à la recherche sur les technologies de traitement du signal permettant de surmonter la distorsion du signal vocal en conditions réelles. Il a développé avec succès une technologie de source commercialisable et a fondé mpWAV.
Nous avons rencontré le PDG Park Hyung-min au laboratoire de recherche de l'université Sogang pour en savoir plus sur la manière dont les technologies d'amélioration et de reconnaissance vocales, ainsi que les technologies de prétraitement de la voix, peuvent changer nos vies dans des environnements complexes et bruyants.

Extraire uniquement le son souhaité, même dans les environnements les plus bruyants et les plus complexes.
Alors, comment mpWAV parvient-il à capturer proprement uniquement l'audio que vous souhaitez entendre dans un environnement bruyant ?
mpAB, la solution phare de mpWAV, intègre la technologie d'annulation d'écho multicanal (mpAEC, Acoustic Echo Canceller) et la technologie de formation de faisceaux (mpBeamforming). mpWAV a remporté le Prix du Premier ministre lors du Salon coréen des inventions et des brevets de 2024 pour mpAB et a obtenu la certification Nouvelle technologie d'excellence (NET) en 2025.
Le phénomène de réenregistrement du son émis par un appareil dans un microphone est appelé écho. Par exemple, lorsqu'un haut-parleur à intelligence artificielle annonce la météo du jour, sa voix est réenregistrée dans le microphone et diffusée. C'est ce qu'on appelle l'écho. Généralement, plusieurs microphones et haut-parleurs sont utilisés, et le son émis par le haut-parleur et l'écho capté par le microphone sont différents.
Les technologies existantes d'annulation d'écho multicanaux doivent déterminer si l'utilisateur parle. Si cette détermination est erronée, la voix de l'utilisateur est également supprimée.
Les technologies existantes de suppression d'écho multicanal doivent déterminer si l'utilisateur parle, mais échouent souvent à le faire et suppriment également sa voix. La détection de la voix de l'utilisateur interrompt l'entraînement, ce qui allonge sa durée et dégrade les performances. En particulier, la suppression d'écho multicanal peut s'avérer problématique car certains sons provenant de plusieurs locuteurs sont identiques tandis que d'autres sont différents, ce qui rend la suppression de l'écho du signal du microphone extrêmement complexe et réduit considérablement les performances.
La technologie de suppression des signaux d'écho multicanaux de mpWAV permet d'identifier et de supprimer efficacement les relations complexes des échos multicanaux, et permet une suppression rapide et excellente des échos sans interruption de l'apprentissage, que l'utilisateur parle ou non.
La technologie de formation de faisceaux de mpWAV optimise automatiquement le son en fonction du seul signal, sans nécessiter de positionnement prédéfini des microphones. Elle combine les signaux de plusieurs microphones pour amplifier les sons provenant de certaines directions et atténuer ceux provenant d'autres.
La technologie de formation de faisceaux classique exigeait de connaître à l'avance la position précise de chaque microphone et de saisir ces positions. Par exemple, le microphone 1 devait être positionné à « 10 cm », le microphone 2 à « 15 cm », et ainsi de suite. En effet, la méthode de combinaison des signaux et la pondération de chaque signal ne pouvaient être déterminées qu'à partir de la connaissance de leur position.
« Le moindre changement dans la conception d'un produit oblige les ingénieurs à recalibrer tous les paramètres, car la position du microphone change. Cela entraîne un réajustement fastidieux à chaque nouvelle version, une augmentation des coûts et, surtout, une dépendance des fabricants envers les fournisseurs de technologie. »
La technologie de formation de faisceaux de mpWAV optimise automatiquement le mixage du signal en analysant uniquement les signaux provenant des microphones. Son principe repose sur sa capacité à sélectionner en temps réel le son de la source sonore cible, sans aucun réglage supplémentaire, même lorsque le placement des microphones est modifié.
mpAB combine ces deux technologies. Son fonctionnement repose sur la ressemblance du signal de sortie final avec la voix de l'utilisateur, indépendamment du placement des microphones. Même en cas de modification de la position ou du nombre de microphones suite à des changements de conception du produit, mpAB optimise automatiquement le signal en fonction du seul signal du microphone, préservant ainsi la qualité vocale sans nécessiter de réajustement.
Le vrai problème n'est pas la technologie, mais l'environnement.
mpWAV a été sélectionnée pour le projet « Super Gap Startup 1000+ » (DeepS) de cette année. L'entreprise développe une technologie qui, grâce à l'installation d'un simple module, active diverses fonctionnalités, notamment la reconnaissance vocale et de mots clés, le traitement du langage et la synthèse vocale, le tout au sein de l'appareil. En septembre dernier, elle avait été sélectionnée pour le programme d'accélération de startups en intelligence artificielle (AI Startup Accelerator) de SK Telecom.
mpWAV collabore avec plusieurs grandes entreprises et instituts de recherche nationaux. Avec A Electronics, la solution a été appliquée aux robots domestiques et aux téléviseurs, améliorant considérablement la reconnaissance des commandes vocales dans des environnements réels, comme les salons. Avec B Automobile, la technologie a été intégrée à un robot guide en magasin. Même dans des environnements bruyants, avec plusieurs haut-parleurs et de la musique d'ambiance, tels que les salles d'exposition et les concessions automobiles, la reconnaissance vocale a fonctionné de manière stable, permettant des conversations naturelles entre les clients et les robots. Avec C, le robot a été équipé de la solution de prétraitement de mpWAV et présenté lors d'une conférence universitaire, démontrant ainsi sa capacité à reconnaître et à répondre avec précision aux voix humaines.
Chaque fois que la reconnaissance vocale est intégrée à des appareils comme les robots guides, les robots domestiques et les systèmes de commande vocale dans les bornes interactives, les équipes de développement se heurtent aux mêmes difficultés. Park affirme que le véritable problème ne réside pas dans la technologie, mais dans l'environnement. Le bruit ambiant en magasin, les voix des autres clients, le moteur du robot et le bruit de la climatisation : tous ces éléments perturbent la reconnaissance vocale par l'IA. L'IA de reconnaissance vocale a déjà atteint un certain niveau de performance. Le problème réside dans la complexité de l'environnement acoustique du quotidien.
« La suppression du bruit implique généralement une distorsion de la voix cible, ce qui réduit inévitablement les performances de la reconnaissance vocale. Cependant, mpAB supprime le bruit sans distorsion, ce qui le rend facilement applicable à tout moteur de reconnaissance vocale client sans dégradation des performances. Nous offrons un support complet pour la mise en œuvre, du logiciel au portage embarqué et à la fabrication de puces SoC, ce qui nous permet de répondre à un large éventail d'exigences clients. »
Clean Ear, une application d'assistance auditive pour les personnes malentendantes.
mpWAV propose également une application Clean Ear pour les personnes souffrant de perte auditive ainsi que pour celles qui ont besoin de conversations et de réunions claires dans des environnements bruyants.
On estime qu'environ 2,5 milliards de personnes dans le monde souffriront de déficience auditive d'ici 2025, dont plus de 700 millions auront besoin d'appareils auditifs ou d'autres dispositifs d'assistance. Si le nombre de personnes malentendantes enregistrées en Corée s'élevait à 440 000 en 2024, le nombre réel de personnes atteintes de déficience auditive serait bien plus élevé.
Le problème réside dans les appareils auditifs. Ils sont extrêmement chers. En raison de leur prix et de leur complexité d'utilisation, plus de 90 % des personnes malentendantes en Corée ne les utilisent pas. Un problème encore plus important est que la fonction première des appareils auditifs est d'amplifier le son.
Au lieu d'amplifier les voix, Clean Ear élimine les bruits de fond et améliore la clarté de la parole. Il vous suffit du microphone et des écouteurs de votre smartphone. Aucun équipement supplémentaire n'est requis, et son prix est abordable.
Le succès de Clean n'est plus à démontrer. L'entreprise a remporté deux prix de l'innovation au CES 2024 dans les catégories « Santé numérique » et « Appareil mobile ». Elle a également reçu un prix d'accessibilité (AccessABILITY Award) du site d'évaluation Reviewed de USA TODAY. Sélectionnée pour le projet de soutien au développement technologique destiné aux populations défavorisées de la ville de Séoul, Clean a mené avec succès des démonstrations dans deux centres d'aide aux personnes âgées.
Utilisé dans divers endroits où la voix est requise.
Avec le développement rapide de l'IA générative, il est clair que les interfaces vocales se généraliseront sur tous les appareils. Le marché est en pleine expansion, à mesure que l'éventail des technologies commercialisées répondant aux attentes des utilisateurs s'élargit. À terme, quasiment tous les appareils intelligents seront dotés d'une interface vocale.
Le marché des interfaces vocales devrait passer d'environ 30,2 milliards de dollars en 2025 à 76,1 milliards de dollars en 2030, soit un taux de croissance annuel moyen de plus de 20 %. La technologie de mpWAV devrait trouver des applications dans de nombreux secteurs, notamment l'automobile, la robotique, la maison intelligente, les bornes interactives et l'Internet des objets (IoT) domestique.
Ces technologies peuvent être utilisées de diverses manières dans la vie quotidienne.
Borne sans obstacle : les personnes malvoyantes peuvent commander sans l’aide d’un vendeur, même au milieu du bruit ambiant, des voix au comptoir et de la musique.
Enregistrement des comptes rendus de réunion : Même lorsque plusieurs personnes prennent la parole simultanément dans une salle de conférence, la voix de chaque intervenant est distinctement séparée et reconnue en temps réel. Vous pouvez ainsi vérifier immédiatement que vos propos ont été fidèlement retranscrits.
Vidéoconférence : Auparavant, si vous étiez dans un café, vous deviez couper votre microphone à cause du bruit de fond, mais avec la solution mpWAV, le bruit du café est supprimé et seule la voix est transmise.

« J’espère que notre technologie pourra rendre le monde meilleur. »
Interrogé sur l'objectif ultime de mpWAV, le PDG Park Hyung-min a répondu comme suit :
Le slogan de mpWAV est « Une vague de chef-d'œuvre pour l'humanité ». Il symbolise l'engagement de l'entreprise à améliorer la qualité de vie, à créer de la valeur sociale grâce à des solutions d'interface vocale et à diffuser des technologies qui connectent les personnes entre elles et les personnes avec la technologie.
Bien que la reconnaissance vocale par IA progresse, le monde réel reste bruyant. Si seulement chacun pouvait entendre les voix dont il a besoin, même dans un environnement bruyant, la communication serait fluide et agréable. mpWAV œuvre à la création de ce monde.
You must be logged in to post a comment.