– 마이크 배치를 자유롭게 변경하면서 별도의 튜닝없이 소음과 사용자 음성을 자동으로 구분·제거하는 mpAB 솔루션 개발
– 자동차, 로봇, 스마트홈, 키오스크, 홈 IoT 등 다양한 분야에 적용
– 난청자를 위한 ‘깨끗耳’ 앱 공급
– 배리어프리 키오스크, 화상회의, 회의록 작성 등 일상 생활 곳곳에서도 다양하게 활용
AI 스피커를 향해 명령해도 아무 반응이 없을 때가 있다. 무슨 문제일까?
AI와의 대화가 일상화됐다. AI의 음성 인식률이 높아졌지만 실제 적용에 있어 해결해야 할 문제가 있다. AI의 음성 인식률이 뛰어나다 해도 실생활에서는 각종 소음으로 가득차 있어 이런 환경을 통제하지 못하면 소용없다.
음성인식 연구는 통제된 환경, 즉 거의 모든 잡음을 제거한 깨끗한 상황에서 성능을 테스트한다. 반면 현실의 음성 사용 환경은 전혀 다르다. 거실의 TV 소리, 카페의 웅성거림, 공장의 기계음, 자동차의 엔진음 등 배경 잡음이 마이크에 수신되면서 신호가 왜곡된다.
실생활의 잡음 환경에서 AI 음성 인터페이스가 제대로 작동하지 못하는 문제를 해결하는 기업이 있다. 엠피웨이브(mpWAV)는 ‘더 나은 음성인식 AI’ 대신 ‘AI가 제대로 작동할 수 있는 환경’을 만드는 전처리 기술에 집중했다.
박형민 대표는 카이스트에서 음성신호처리로 박사학위를 받은 후 카네기멜론 대학교 언어기술 연구소에서 연구원으로 활동했다. 2007년 서강대학교 전자공학과 교수로 임용된 후 실제 환경에서의 음성 신호 왜곡을 극복하는 신호처리 기술을 연구해 왔으며 상용화거 가능한 원천 기술 개발에 성공하여 엠피웨이브를 창업하였다.
서강대학교 연구실에서 박형민 대표를 만나 일상의 복잡한 잡음 환경에서의 음성 향상 및 인식 기술, 음성 전처리 기술이 향후 우리의 삶에 어떤 변화를 가져오는 지에 대해 들었다.

아무리 시끄럽고 복잡한 환경이라도 원하는 음성만 추출
그렇다면, 엠피웨이브는 잡음 환경 속에서 어떻게 듣고 싶은 음성만 깨끗이 걸려낼 수 있을까?
엠피웨이브의 핵심 솔루션인 mpAB는 다채널에코신호제거 기술(mpAEC, Acoustic Echo Canceller)과 빔포밍 기술(mpBeamforming)을 통합한 것이다. 엠피웨이브는 mpAB로 2024년 대한민국발명특허대전에서 국무총리상을 수상했으며, 2025년 신기술(NET) 인증을 획득했다.
기기에서 나오는 소리가 마이크에 다시 들어가는 현상을 에코라고 한다. “예를 들어 AI 스피커가 ‘오늘 날씨 알려드리겠습니다’라고 말할 때, 스피커 음성이 마이크에 다시 들어가 재생되는 것이 에코 현상이다. 보통 마이크와 스피커를 여러 대 사용하는데, 스피커에서 나오는 음성과 마이크가 받아들이는 에코는 서로 다르다.
기존의 다채널에코신호제거 기술은 현재 사용자가 말을 하고 있는지를 판단해야 한다. 이 판단이 잘못되면 사용자 음성까지 제거된다.
”기존의 다채널에코신호제거 기술은 사용자가 말하고 있는지를 판단해야 하는데, 판단에 실패해 사용자 음성까지 함께 제거되는 경우가 많습니다. 사용자 음성을 감지하면 학습을 중단해 학습 시간이 길어지고 성능이 저하되는 문제도 있습니다. 특히 다채널에코의 경우 여러 스피커에서 나오는소리들이 일부를 동일하고 일부는 다르기 때문에 마이크 신호에 에코를 제거하는데 혼란이 매우 커서 성능이 급격히 떨어집니다.”
엠피웨이브의 다채널에코신호제거 기술은 다채널에코의 복잡한 관계성을 효과적으로 파악하여 제거할 수 있으며 사용자의 발화 여부에 따른 학습 중단 없이 빠르고 뛰어난 에코 제거가 가능하다.
엠피웨이브의 빔포밍 기술은 마이크 위치를 미리 설정하지 않아도 신호만으로 자동으로 최적화하는 기술이다. 빔포밍이란 여러 마이크의 신호를 조합하여 특정 방향의 소리는 강하게, 다른 방향의 소리는 약하게 만드는 기술을 말한다.
기존의 빔포밍 기술은 마이크의 정확한 위치를 미리 알고 정확한 위치를 모두 입력해야 했다. 예를 들어, 1번 마이크는 ‘10cm 위치’, 2번 마이크는 ‘15cm 위치’라고 설정해줘야 했다. 마이크 위치를 알아야만 신호를 조합하는 방식과 각 마이크 신호에 얼마만큼의 가중치를 줄지를 결정할 수 있기 때문이다.
“제품 디자인이 조금이라도 바뀌면 마이크 위치가 변경되기 때문에 엔지니어가 모든 설정을 다시 해야 합니다. 그래서 새 제품이 나올 때마다 재튜닝에 시간이 오래 걸리고 비용이 증가하고 무엇보다 제조사가 기술 공급사에 종속되는 문제가 발생합니다.”
엠피웨이브의 빔포밍 기술은 마이크에서 나오는 신호들만 분석하면, 자동으로 신호를 최적 조합한다. 엠피웨이브의 빔포밍 기술의 핵심은 마이크 배치를 자유롭게 변경하더라도 별도의 튜닝없이 실시간으로 목표 음원의 소리만 선별하는 것에 있다.
이 두 가지 기술을 합친 것이 mpAB다. mpAB는 최종 출력 신호가 사용자 음성과 유사한지를 기준으로 작동하므로 마이크 배치에 무관하다. 제품 디자인 변경으로 마이크 위치나 개수가 바뀌어도 마이크 신호만으로 자동 최적화를 수행해 음성 품질을 유지하기 때문에 재튜닝 부담이 없다.
진짜 문제는 기술이 아니라 환경
엠피웨이브는 올해 ‘초격차스타트업1000+’ 프로젝트(딥스)에 선정되어 모듈만 장착하면 음성 및 기동어 인식뿐만 아니라 언어처리, 음성 합성까지 다양한 기능을 기기 내에서 바로 처리할 수 있는 기술을 개발하고 있다. 지난 9월에는 SK텔레콤이 주관하는 ‘AI 스타트업 액셀러레이터’에 선발되었다.
엠피웨이브는 여러 대기업과 국책 연구소와 협력하고 있다. A전자와는 홈로봇과 TV에 솔루션을 적용해 실제 거실 환경에서 음성 명령 인식률을 크게 향상시켰다. B자동차와는 매장 안내로봇에 기술을 적용했다. 쇼룸과 대리점처럼 여러 사람이 말하고 배경음악이 나오는 환경에서도 음성 인식이 안정적으로 작동하면서, 고객과 로봇이 자연스럽게 대화할 수 있게 되었다. C와는 로봇에 엠피웨이브의 전처리 솔루션을 탑재해 학술대회에서 시연해 로봇이 사람의 음성을 정확하게 인식하고 응답하는 성능을 입증했다.
안내로봇, 홈로봇, 키오스크의 음성 주문 시스템과 같은 기기들에 음성인식이 탑재될 때마다 개발팀은 같은 문제에 직면한다. 진짜 문제는 기술이 아니라 환경이라는 게 박 대표의 주장이다. 매장의 배경음, 다른 사람들의 목소리, 로봇 자신의 모터음, 에어컨 소음. 이 모든 것이 AI의 음성인식을 방해한다. 음성인식 AI의 성능 자체는 이미 일정 수준에 도달했다. 문제는 현실의 복잡한 음향 환경이다.
“일반적으로 잡음을 제거하는 과정 중에 목표 음성 왜곡이 수반되어 음성인식 성능이 떨어질 수 밖에 없는데, mpAB는 잡음을 제거하면서도 음성 왜곡이 발생하지 않아, 고객사가 보유한 어떠한 음성인식 엔진에도 성능 저하 없이 바로 적용할 수 있습니다. 소프트웨어부터 임베디드 포팅, SoC 칩 제작까지 모든 구현이 가능해 다양한 고객사의 요구사항을 충족할 수 있습니다.”
난청자들을 위한 청각보조앱, ‘깨끗耳’
엠피웨이브는 난청자뿐만 아니라 소음이 많은 환경에서 명확한 대화와 회의가 필요한 사람들을 위한 깨끗이(깨끗耳)앱도 공급하고 있다.
전 세계적으로 2025년 기준 약 25억 명의 사람들이 청력 손실을 겪고 있는 것으로 예측되며, 이 중 7억 명 이상이 보청기 등 청력 보조기기가 필요한 것으로 추정하고 있다. 한국의 청각장애 등록 인구는 2024년 기준 44만 명이지만, 실제 난청자는 이보다 훨씬 많은 것으로 추정된다.
문제는 보청기다. 보청기는 매우 비싸다. 가격과 사용성 때문에 국내의 경우 90% 이상의 난청자가 보청기를 사용하지 않고 있다. 더 큰 문제는 보청기의 주된 기능이 소리 증폭이라는 것이다.
깨끗이(깨끗耳)는 음성을 증폭하는 대신, 배경 잡음을 제거하고 음성을 명확하게 만든다. 스마트폰의 마이크와 이어폰만 있으면 된다. 가격 부담도 없고 별도의 기기도 필요없다.
깨끗이의 성과는 이미 증명됐다. 2024년 CES에서 ‘디지털 헬스’ 부문과 ‘모바일 디바이스’ 부문 2개 혁신상을 받았다. USA TODAY의 리뷰 사이트 Reviewed가 선정하는 ‘AccessABILITY Awards’도 수상했다. 서울시 약자를 위한 기술개발 지원사업에 선정되어 노인복지관 2곳에서 실증도 성공적으로 마쳤다.
음성이 필요한 다양한 곳에 활용
”생성형 AI가 급격하게 발달하면서 모든 기기에 음성 인터페이스가 확산될 것은 자명합니다. 기술적으로도 사용자의 기대를 충족하는 상용화 범위가 점점 넓어지면서 시장이 빠르게 확대되고 있습니다. 장기적으로 거의 모든 스마트 기기가 음성 인터페이스를 갖게 될 겁니다.“
음성 인터페이스 시장의 규모는 현재 약 302억 달러(2025년)에서 2030년 761억 달러로 성장할 것으로 예측되고 있으며, 연평균 20% 이상의 성장률을 기록할 것으로 예상된다. 엠피웨이브의 기술은 자동차, 로봇, 스마트홈, 키오스크, 홈 IoT 등 다양한 분야에 적용될 것으로 보인다.
이러한 기술은 일상 생활 곳곳에서도 다양하게 활용될 수 있다.
배리어프리 키오스크: 시각장애인이 주변의 배경음, 카운터 목소리, 음악 속에서도 점원의 도움 없이 스스로 주문할 수 있다.
회의록 작성 : 회의실에서 많은 사람들이 동시에 말해도 각 화자의 음성을 분리하여 실시간으로 인식한다. 회의 중 자신의 발언이 정확하게 기록되는지 즉시 확인할 수 있다.
화상회의 : 이전에는 카페에 있으면 배경음 때문에 마이크를 꺼야 했지만, 엠피웨이브 솔루션을 사용하면 카페 소음은 제거되고 음성만 전달된다.

”우리 기술을 통해서 세상이 더 좋게 변하면 좋겠습니다.“
박형민 대표에게 엠피웨이브가 궁극적으로 추구하는 목표에 대해 묻자 이렇게 답했다.
엠피웨이브의 슬로건이 ‘Masterpiece Wave for Humanity’이다. 음성 인터페이스 솔루션을 통해 인간의 삶의 질을 높이고 사회적 가치를 실현하며, 사람과 사람, 사람과 기술을 연결하는 기술을 사회에 확산시키겠다는 의미다.
음성 AI의 인식률은 높아지고 있지만 실생활은 많은 소음으로 가득하다. 시끄러운 환경에서도 필요한 음성만 선별하여 들을 수 있다면, 누구나 편하게 소통할 수 있을 것이다. 그런 세상을 엠피웨이브가 만들어 나가고 있다.
"Hear only the voices you need in a noisy world"… mpWAV CEO Park Hyung-min
Development of an mpAB solution that automatically distinguishes and removes noise and user voice without separate tuning while freely changing microphone placement.
– Applicable to various fields such as automobiles, robots, smart homes, kiosks, and home IoT.
– Provision of the 'Clean Ear' app for the hearing impaired
– Widely used in everyday life, including barrier-free kiosks, video conferencing, and meeting minutes.
Sometimes, when I give commands to my AI speaker, nothing happens. What could be the problem?
Conversations with AI have become commonplace. While AI's voice recognition capabilities have improved, practical applications still face challenges. Even with AI's superior voice recognition capabilities, real-world environments are often filled with various noises, making them useless if these environments cannot be controlled.
Speech recognition research tests performance in controlled environments, i.e., clean situations with virtually all noise removed. However, real-world speech environments are quite different. Background noises like the TV in a living room, the murmur of a cafe, the mechanical hum of a factory, and the roar of a car engine are picked up by the microphone, distorting the signal.
There's a company solving the problem of AI voice interfaces failing to function properly in noisy real-life environments. mpWAV (mpWAV) focuses on preprocessing technology to create an environment where AI can function properly, rather than "better speech recognition AI."
CEO Park Hyung-min received his Ph.D. in speech signal processing from KAIST and worked as a researcher at the Language Technology Research Institute at Carnegie Mellon University. After being appointed a professor in the Department of Electrical Engineering at Sogang University in 2007, he has been researching signal processing technologies that overcome speech signal distortion in real-world environments. He successfully developed commercially viable source technology and founded mpWAV.
We met with CEO Park Hyung-min at Sogang University's research lab to learn about how voice enhancement and recognition technologies, as well as voice preprocessing technologies, can change our lives in complex, noisy environments.

Extract only the desired sound, even in the noisiest and most complex environments.
So, how can mpWAV cleanly capture only the audio you want to hear in a noisy environment?
mpAB, mpWAV's core solution, integrates multi-channel echo cancellation technology (mpAEC, Acoustic Echo Canceller) and beamforming technology (mpBeamforming). mpWAV won the Prime Minister's Award at the 2024 Korea Invention and Patent Exhibition for mpAB and received New Excellent Technology (NET) certification in 2025.
The phenomenon of sound from a device being re-recorded into the microphone is called echo. For example, when an AI speaker says, "I'll tell you today's weather," the speaker's voice is re-recorded into the microphone and played back. This is called echo. Typically, multiple microphones and speakers are used, and the sound from the speaker and the echo received by the microphone are different.
Existing multi-channel echo cancellation technology must determine whether the user is speaking. If this determination is incorrect, the user's voice is also removed.
Existing multi-channel echo signal removal technology must determine whether the user is speaking, but often fails to do so and removes the user's voice as well. Detecting the user's voice also causes the system to halt training, extending training time and degrading performance. In particular, multi-channel echo removal can be problematic because some sounds from multiple speakers are the same and others are different, making echo removal from the microphone signal extremely confusing and drastically reducing performance.
mpWAV's multi-channel echo signal removal technology can effectively identify and remove the complex relationships of multi-channel echoes, and enables fast and excellent echo removal without interruption in learning depending on whether the user speaks.
mpWAV's beamforming technology automatically optimizes sound based solely on the signal, without requiring pre-configured microphone positions. Beamforming combines signals from multiple microphones to amplify sounds from specific directions and weaken sounds from other directions.
Conventional beamforming technology required knowing the precise locations of each microphone in advance and inputting all of their precise locations. For example, microphone 1 had to be set to a "10cm location," microphone 2 to a "15cm location," and so on. This is because only by knowing the microphone locations can the signal combination method and the weighting of each microphone signal be determined.
"Even the slightest change in product design requires engineers to re-calibrate all settings, as the microphone position changes. This leads to time-consuming re-tuning with each new product release, increasing costs, and, most importantly, locking manufacturers into the hands of technology suppliers."
mpWAV's beamforming technology automatically optimizes the signal mix by analyzing only the signals coming from the microphones. The core of mpWAV's beamforming technology is its ability to selectively select only the sound of the target sound source in real time, without any additional tuning, even when the microphone placement is freely changed.
mpAB combines these two technologies. mpAB operates based on whether the final output signal resembles the user's voice, making it independent of microphone placement. Even if the position or number of microphones change due to product design changes, mpAB automatically optimizes based solely on the microphone signal, maintaining voice quality without the burden of retuning.
The real problem is not technology, but the environment.
mpWAV was selected for this year's "Super Gap Startup 1000+" project (DeepS). They are developing technology that, simply by installing a module, enables a variety of functions, including voice and cued word recognition, language processing, and speech synthesis, all within the device. Last September, they were selected for the "AI Startup Accelerator" hosted by SK Telecom.
mpWAV is collaborating with several major corporations and national research institutes. With A Electronics, the solution was applied to home robots and TVs, significantly improving voice command recognition rates in real-world living room environments. With B Automobile, the technology was applied to a store guide robot. Even in environments with multiple speakers and background music, such as showrooms and dealerships, voice recognition functioned stably, enabling natural conversations between customers and robots. With C, the robot was equipped with mpWAV's preprocessing solution and demonstrated at an academic conference, demonstrating the robot's ability to accurately recognize and respond to human voices.
Every time voice recognition is integrated into devices like guide robots, home robots, and voice ordering systems in kiosks, development teams face the same challenges. Park argues that the real problem isn't the technology, but the environment. Background noise in the store, other people's voices, the robot's own motor, and air conditioning noise—all of these things interfere with AI's voice recognition. Voice recognition AI has already achieved a certain level of performance. The problem lies in the complex acoustic environment of real life.
"Noise removal typically involves distortion of the target voice, which inevitably reduces speech recognition performance. However, mpAB removes noise without distortion, making it readily applicable to any customer speech recognition engine without performance degradation. We offer full implementation support, from software to embedded porting and SoC chip fabrication, enabling us to meet a wide range of customer requirements."
Clean Ear, a hearing assistance app for the hearing impaired
mpWAV also provides a Clean Ear app for people with hearing loss as well as those who need clear conversations and meetings in noisy environments.
It's estimated that approximately 2.5 billion people worldwide will suffer from hearing loss by 2025, with over 700 million of these individuals needing hearing aids or other assistive devices. While the number of registered hearing impaired people in Korea was 440,000 as of 2024, the actual number of people with hearing loss is estimated to be much higher.
The problem lies with hearing aids. They are extremely expensive. Because of their price and usability, over 90% of hearing-impaired people in Korea don't use them. An even bigger problem is that hearing aids' primary function is to amplify sound.
Instead of amplifying voices, Clean Ear removes background noise and makes speech clearer. All you need is your smartphone's microphone and earphones. No additional equipment is required, and it's affordable.
Clean's success has already been proven. It won two Innovation Awards at CES 2024 in the "Digital Health" and "Mobile Device" categories. It also won an "AccessABILITY Award" from USA TODAY's review site Reviewed. Selected for the Seoul Metropolitan Government's Technology Development Support Project for the Underprivileged, it successfully completed demonstrations at two senior welfare centers.
Used in various places where voice is needed
With the rapid development of generative AI, it's clear that voice interfaces will spread across all devices. The market is rapidly expanding as the range of commercialization technologies that meet user expectations continues to expand. In the long term, virtually every smart device will have a voice interface.
The voice interface market is projected to grow from approximately $30.2 billion in 2025 to $76.1 billion in 2030, at an average annual growth rate of over 20%. mpWAV's technology is expected to be applied to a wide range of sectors, including automobiles, robots, smart homes, kiosks, and home IoT.
These technologies can be used in a variety of ways in everyday life.
Barrier-free kiosk: People with visual impairments can order without assistance from a clerk, even amidst background noise, counter voices, and music.
Recording Meeting Minutes: Even when multiple people are speaking simultaneously in a conference room, each speaker's voice is separated and recognized in real time. You can immediately check that your remarks during the meeting are accurately recorded.
Video Conferencing: Previously, if you were in a cafe, you had to turn off your microphone because of the background noise, but with the mpWAV solution, the cafe noise is removed and only the voice is transmitted.

"I hope that our technology can make the world a better place."
When asked about mpWAV's ultimate goal, CEO Park Hyung-min responded as follows:
mpWAV's slogan is "Masterpiece Wave for Humanity." It signifies the company's commitment to improving the quality of life, realizing social value through voice interface solutions, and spreading technologies that connect people with people and people with technology.
While voice AI recognition rates are improving, real life is still filled with noise. If only people could hear the voices they need, even in noisy environments, everyone would be able to communicate comfortably. mpWAV is creating that world.
「騒々しい世界で必要な音声だけを聞く」… mpWAVパク・ヒョンミン代表
– マイクの配置を自由に変更しながら、別途のチューニングなしで騒音とユーザー音声を自動的に区分・削除するmpABソリューション開発
– 自動車、ロボット、スマートホーム、キオスク、ホームIoTなど、さまざまな分野に適用
– 難聴者のための「きれい耳」アプリの供給
– バリアフリーキオスク、テレビ会議、会議録作成など日常生活のあちこちでも多様に活用
AIスピーカーに向けて命令しても何の反応もない場合がある。何が問題なのか?
AIとの対話が日常化した。 AIの音声認識率が高くなったが、実際の適用において解決すべき問題がある。 AIの音声認識率が優れていても、実生活では各種騒音でいっぱいであり、このような環境を制御できなければ無駄だ。
音声認識研究は、制御された環境、つまりほぼすべてのノイズを排除したクリーンな状況でパフォーマンスをテストします。一方、現実の音声使用環境はまったく異なる。リビングルームのテレビ音、カフェのうるさい、工場の機械音、自動車のエンジン音など、バックグラウンドノイズがマイクに受信され、信号が歪む。
実生活のノイズ環境でAI音声インターフェースが正しく動作しない問題を解決する企業がある。 mpWAV(mpWAV)は「より良い音声認識AI」の代わりに「AIが正しく動作できる環境」を作る前処理技術に集中した。
パク・ヒョンミン代表はカイストで音声信号処理で博士学位を受けた後、カネギメロン大学言語技術研究所で研究員として活動した。 2007年に西江大学電子工学科教授に任用された後、実際の環境での音声信号歪みを克服する信号処理技術を研究しており、商用化可能な源泉技術の開発に成功しmpWAVを創業した。
西江大学研究室でパク・ヒョンミン代表に会い、日常の複雑な雑音環境での音声向上と認識技術、音声前処理技術が今後の生活にどのような変化をもたらすかについて聞いた。

どんなに騒々しく複雑な環境でも、希望の音声だけを抽出
それでは、mpWAVはノイズ環境の中でどのように聞きたい音声だけをきれいにかけることができるだろうか?
mpWAVのコアソリューションであるmpABは、マルチチャンネルエコー信号除去技術(mpAEC、Acoustic Echo Canceller)とビームフォーミング技術(mpBeamforming)を統合したものです。 mpWAVはmpABで2024年大韓民国発明特許大戦で国務総理賞を受賞し、2025年新技術(NET)認証を獲得した。
機器から出る音がマイクに再び入る現象をエコーという。 「例えば、AIスピーカーが「今日の天気をお知らせします」と言うとき、スピーカーの音声がマイクに再び入って再生されるのがエコー現象だ。
既存の多チャンネルエコー信号除去技術は、現在ユーザが話しているかどうかを判断しなければならない。この判断が間違っていると、ユーザーの声まで削除されます。
「従来の多チャンネルエコー信号除去技術は、ユーザーが話しているかどうかを判断しなければならないが、判断に失敗してユーザー音声まで一緒に除去されることが多い。ユーザー音声を感知すると学習を中断して学習時間が長くなり性能が低下する問題もあります。急激に落ちます。」
mpWAVの多チャンネルエコー信号除去技術は、多チャンネルエコーの複雑な関係性を効果的に把握して除去することができ、ユーザーの発火の有無に応じて学習を中断することなく、迅速で優れたエコー除去が可能です。
mpWAVのビームフォーミング技術は、マイク位置をあらかじめ設定しなくても信号だけで自動的に最適化する技術である。ビームフォーミングとは、複数のマイクの信号を組み合わせて特定の方向の音が強く、他の方向の音が弱くする技術をいう。
従来のビームフォーミング技術は、マイクの正確な位置を事前に知って正確な位置をすべて入力しなければならなかった。例えば、1番マイクは「10cm位置」、2番マイクは「15cm位置」と設定しなければならなかった。マイク位置を知ってこそ信号を組み合わせる方式と、各マイク信号にどのくらいの重みを与えるかを決定できるからだ。
「製品のデザインが少しでも変わると、マイクの位置が変わるため、エンジニアがすべての設定をやり直す必要があります。そのため、新製品が出るたびに再調整に時間がかかり、コストが増加し、何よりもメーカーが技術サプライヤに依存する問題が発生します。」
mpWAVのビームフォーミング技術は、マイクからの信号のみを分析すると、自動的に信号を最適に組み合わせます。 mpWAVのビームフォーミング技術の核心は、マイクの配置を自由に変更しても、別途のチューニングなしでリアルタイムで目標音源の音だけを選別することにある。
この2つの技術を合わせたのがmpABだ。 mpABは、最終出力信号がユーザの音声に類似しているかどうかを基準にして動作するため、マイクの配置には無関係です。製品設計変更でマイク位置や個数が変わっても、マイク信号だけで自動最適化を行い音声品質を維持するため、再チューニング負担がない。
本当の問題は技術ではなく環境
mpWAVは今年「超格差スタートアップ1000+」プロジェクト(ディープス)に選定され、モジュールだけを装着すれば、音声および機動語認識だけでなく、言語処理、音声合成まで様々な機能を機器内ですぐに処理できる技術を開発している。去る9月にはSKテレコムが主管する「AIスタートアップアクセラレータ」に選抜された。
mpWAVは、多くの大企業や国策研究所と協力している。 A電子とは、ホームロボットとTVにソリューションを適用し、実際のリビング環境で音声コマンド認識率を大幅に向上させた。 B自動車とは店舗案内ロボットに技術を適用した。ショールームやディーラーのように、複数の人が話し、背景音楽が出てくる環境でも音声認識が安定して機能し、顧客とロボットが自然に会話できるようになった。 CとはロボットにmpWAVの前処理ソリューションを搭載し、学術大会で実演し、ロボットが人の声を正確に認識して応答する性能を立証した。
案内ロボット、ホームロボット、キオスクの音声注文システムなどの機器に音声認識が搭載されるたびに、開発チームは同じ問題に直面する。本当の問題は技術ではなく環境というのが朴代表の主張だ。店舗の背景音、他人の声、ロボット自身のモーター音、エアコン騒音。これらすべてがAIの音声認識を妨げる。音声認識AIの性能自体はすでに一定レベルに達している。問題は現実の複雑な音響環境です。
「一般的にノイズを除去する過程中に目標音声歪みが伴い、音声認識性能が低下するしかないのに、mpABはノイズを除去しながらも音声歪みが発生せず、顧客会社が保有するどんな音声認識エンジンにも性能低下なくすぐに適用できます。ソフトウェアから組み込みポッティング、SoCチップ製作まで
難聴者のための聴覚補助アプリ、「きれいな耳」
mpWAVは難聴者だけでなく、騒音の多い環境で明確な会話や会議が必要な人のためのきれいな耳アプリも提供している。
世界的に2025年基準で約25億人の人々が聴力損失を被っていると予測され、このうち7億人以上が補聴器などの聴力補助機器が必要だと推定している。韓国の聴覚障害登録人口は2024年基準で44万人だが、実際の難聴者はこれよりはるかに多いと推定される。
問題は補聴器だ。補聴器は非常に高価です。価格と使いやすさのため、国内の場合、90%以上の難聴者が補聴器を使用していない。より大きな問題は、補聴器の主な機能が音増幅であるということです。
きれい耳は音声を増幅するのではなく、背景ノイズを除去し、音声を明確にする。スマートフォンのマイクとイヤホンだけでいい。価格負担もなく、別途の機器も必要ない。
スキンの成果はすでに証明されている。 2024年、CESで「デジタルヘルス」部門と「モバイルデバイス」部門の2つの革新賞を受けた。 USA TODAYのレビューサイトReviewedが選定する「AccessABILITY Awards」も受賞した。ソウル市の弱者のための技術開発支援事業に選定され、高齢者福祉館2カ所で実証も成功裏に終えた。
音声が必要な様々な場所に活用
「生成型AIが急激に発展し、あらゆる機器に音声インターフェースが広がるのは自明です。技術的にも、ユーザーの期待を満たす商用化の範囲がますます広がり、市場が急速に拡大しています。
音声インターフェース市場の規模は現在、約302億ドル(2025年)から2030年には761億ドルに成長すると予測されており、年平均20%以上の成長率を記録すると予想される。 mpWAVの技術は、自動車、ロボット、スマートホーム、キオスク、ホームIoTなど様々な分野に適用されるものと見られる。
このような技術は日常生活の至る所でも多様に活用できる。
バリアフリーキオスク:視覚障害者が周辺の背景音、カウンターの声、音楽の中でも店員の助けなしで自分で注文することができる。
会議録の作成:会議室で多くの人が同時に話しても、各話者の声を分離してリアルタイムで認識する。会議中に自分の発言が正確に記録されているかすぐに確認できます。
テレビ会議:以前はカフェにいたら背景音のためにマイクをオフにしなければなりませんでしたが、mpWAVソリューションを使用するとカフェ騒音は削除され、音声だけが伝わります。

「私たちの技術を通して世界がより良く変わってほしい」
パク・ヒョンミン代表にmpWAVが究極的に追求する目標について尋ねるとこう答えた。
mpWAVのスローガンが「Masterpiece Wave for Humanity」だ。音声インターフェースソリューションを通じて人間の生活の質を高め、社会的価値を実現し、人と人、人と技術をつなぐ技術を社会に広げるという意味だ。
音声AIの認識率は高くなっているが、実生活は多くの騒音に満ちている。騒々しい環境でも必要な音声だけを選別して聞くことができれば、誰でも気軽にコミュニケーションできるだろう。そんな世界をmpWAVが作っていく。
“在喧嚣的世界里,只聆听你需要的声音”……mpWAV CEO 朴亨敏
开发一种mpAB解决方案,无需单独调整即可自动区分和消除噪声和用户语音,同时还能自由改变麦克风位置。
– 适用于汽车、机器人、智能家居、自助服务终端、家庭物联网等各个领域。
– 为听力障碍人士提供“清洁耳朵”应用程序
– 广泛应用于日常生活,包括无障碍自助服务终端、视频会议和会议记录。
有时,当我向我的AI音箱发出指令时,它没有任何反应。这可能是什么问题呢?
与人工智能对话已变得司空见惯。虽然人工智能的语音识别能力不断提升,但实际应用仍面临挑战。即使人工智能拥有卓越的语音识别能力,现实世界的环境也常常充斥着各种噪音,如果无法控制这些环境,人工智能就无法发挥作用。
语音识别研究通常在受控环境下测试其性能,即在几乎所有噪声都被消除的纯净环境中进行。然而,现实世界的语音环境截然不同。诸如客厅里的电视声、咖啡馆里的低语声、工厂里的机械嗡鸣声以及汽车引擎的轰鸣声等背景噪声都会被麦克风拾取,从而干扰信号。
有一家公司致力于解决人工智能语音界面在嘈杂的真实环境中无法正常工作的问题。mpWAV(mpWAV)专注于预处理技术,旨在创造一个人工智能能够正常运行的环境,而不是仅仅追求“更好的语音识别人工智能”。
首席执行官朴亨敏在韩国科学技术院(KAIST)获得语音信号处理博士学位,曾任卡内基梅隆大学语言技术研究所研究员。2007年,他被任命为西江大学电子工程系教授,此后一直致力于研究能够克服实际环境中语音信号失真的信号处理技术。他成功开发出具有商业可行性的音源技术,并创立了mpWAV公司。
我们在西江大学研究实验室与首席执行官朴亨敏会面,了解语音增强和识别技术以及语音预处理技术如何在复杂、嘈杂的环境中改变我们的生活。

即使在最嘈杂、最复杂的环境中,也能只提取所需的声音。
那么,mpWAV 如何在嘈杂的环境中清晰地只捕捉你想听到的音频呢?
mpWAV的核心解决方案mpAB集成了多通道回声消除技术(mpAEC,声学回声消除器)和波束成形技术(mpBeamforming)。mpWAV凭借mpAB在2024年韩国发明专利展览会上荣获总理奖,并于2025年获得优秀新技术(NET)认证。
设备发出的声音被麦克风重新录制下来的现象称为回声。例如,当人工智能扬声器说“我来告诉你今天的天气”时,扬声器的声音会被麦克风重新录制下来并播放。这就是回声。通常会使用多个麦克风和扬声器,扬声器发出的声音和麦克风接收到的回声是不同的。
现有的多通道回声消除技术必须判断用户是否正在说话。如果判断错误,用户的声音也会被消除。
现有的多通道回声信号消除技术必须判断用户是否在说话,但往往无法准确判断,反而会将用户的声音也消除掉。检测到用户的声音还会导致系统停止训练,延长训练时间并降低性能。尤其值得注意的是,多通道回声消除可能存在问题,因为来自多个说话者的某些声音相同,而另一些声音则不同,这使得从麦克风信号中消除回声变得极其复杂,并大幅降低性能。
mpWAV 的多通道回声信号消除技术能够有效识别和消除多通道回声的复杂关系,并能根据用户是否说话,在学习过程中实现快速、优秀的回声消除,而不会中断学习。
mpWAV 的波束成形技术仅根据信号自动优化声音,无需预先配置麦克风位置。波束成形技术将来自多个麦克风的信号组合起来,放大来自特定方向的声音,并减弱来自其他方向的声音。
传统的波束成形技术需要预先知道每个麦克风的精确位置,并将它们全部精确位置输入系统。例如,麦克风 1 必须设置为“10 厘米位置”,麦克风 2 必须设置为“15 厘米位置”,依此类推。这是因为只有知道麦克风的位置,才能确定信号组合方式和每个麦克风信号的权重。
“即使产品设计发生最细微的变化,由于麦克风位置的改变,工程师也需要重新校准所有设置。这导致每次新产品发布都需要耗费大量时间进行重新调校,增加了成本,而最重要的是,这使得制造商不得不依赖技术供应商。”
mpWAV 的波束成形技术通过分析来自麦克风的信号,自动优化信号混合。mpWAV 波束成形技术的核心在于,即使麦克风位置随意改变,它也能实时选择性地只提取目标声源的声音,无需任何额外的调整。
mpAB 融合了这两种技术。mpAB 的工作原理是基于最终输出信号是否与用户的声音相似,因此不受麦克风位置的影响。即使由于产品设计变更导致麦克风的位置或数量发生变化,mpAB 也能仅根据麦克风信号自动优化,从而在无需重新调音的情况下保持语音质量。
真正的问题不在于技术,而在于环境。
mpWAV入选了今年的“Super Gap Startup 1000+”项目(DeepS)。他们正在开发一种技术,只需安装一个模块,即可在设备内部实现多种功能,包括语音和提示词识别、语言处理和语音合成。去年9月,他们入选了由SK Telecom主办的“AI Startup Accelerator”项目。
mpWAV正与多家大型企业和国家级科研院所开展合作。与A电子公司的合作中,该解决方案被应用于家用机器人和电视,显著提升了在真实客厅环境中的语音指令识别率。与B汽车公司的合作中,该技术被应用于一款门店导购机器人。即使在展厅和经销店等有多位发言人和背景音乐的环境中,语音识别也能稳定运行,实现了顾客与机器人之间自然流畅的对话。与C公司的合作中,该机器人配备了mpWAV的预处理解决方案,并在学术会议上进行了演示,展示了该机器人能够准确识别并响应人声。
每当语音识别技术被集成到导览机器人、家用机器人和自助点餐机语音点餐系统等设备中时,开发团队都会面临同样的挑战。Park认为,真正的问题不在于技术本身,而在于环境。商店里的背景噪音、其他人的声音、机器人自身的马达声以及空调噪音——所有这些都会干扰人工智能的语音识别。语音识别人工智能已经达到了一定的性能水平。问题在于现实生活中复杂的声学环境。
“通常情况下,噪声消除会造成目标语音失真,这不可避免地会降低语音识别性能。然而,mpAB 能够在不失真的情况下消除噪声,因此可以轻松应用于任何客户的语音识别引擎,而不会降低性能。我们提供从软件到嵌入式移植和 SoC 芯片制造的全面实施支持,使我们能够满足各种客户需求。”
Clean Ear,一款面向听力障碍人士的助听应用程序
mpWAV 还为听力受损人士以及需要在嘈杂环境中进行清晰对话和会议的人士提供了一款名为“Clean Ear”的应用程序。
据估计,到2025年,全球约有25亿人将患有听力损失,其中超过7亿人需要助听器或其他辅助设备。截至2024年,韩国登记在册的听力障碍人士为44万人,但实际听力损失人数估计远高于此。
问题出在助听器上。它们价格极其昂贵。由于价格和使用上的限制,韩国超过90%的听力障碍人士没有使用助听器。更大的问题是,助听器的主要功能是放大声音。
Clean Ear 并非放大声音,而是消除背景噪音,使语音更清晰。您只需要智能手机的麦克风和耳机即可。无需其他设备,而且价格实惠。
Clean 的成功已得到证实。它在 2024 年国际消费电子展 (CES) 上荣获“数字健康”和“移动设备”类别的两项创新奖。此外,它还获得了《今日美国》旗下评论网站 Reviewed 颁发的“无障碍奖”。Clean 还入选了首尔市政府面向弱势群体的技术开发支持项目,并在两家老年福利中心成功完成了演示。
用于各种需要语音的场合。
随着生成式人工智能的飞速发展,语音界面显然将普及到所有设备。随着满足用户期望的商业化技术不断涌现,市场也在迅速扩张。从长远来看,几乎所有智能设备都将配备语音界面。
语音接口市场预计将从2025年的约302亿美元增长到2030年的761亿美元,年均增长率超过20%。mpWAV的技术有望应用于包括汽车、机器人、智能家居、自助服务终端和家庭物联网在内的广泛领域。
这些技术在日常生活中可以以多种方式应用。
无障碍自助点餐机:视力障碍人士即使在有背景噪音、柜台说话声和音乐的情况下,也可以无需店员的帮助进行点餐。
会议记录:即使会议室里多人同时发言,系统也能实时分离并识别每位发言者的声音。您可以立即查看您在会议期间的发言是否已被准确记录。
视频会议:以前,如果你在咖啡馆里,由于背景噪音,你不得不关闭麦克风,但有了 mpWAV 解决方案,咖啡馆的噪音就会被消除,只传输人声。

“我希望我们的技术能够让世界变得更美好。”
当被问及mpWAV的最终目标时,CEO朴亨敏回答如下:
mpWAV 的口号是“为人类创造杰作般的波形”。它象征着公司致力于通过语音界面解决方案改善生活质量、实现社会价值,并传播连接人与人、人与科技的技术。
虽然语音AI的识别率不断提高,但现实生活仍然充满噪音。如果人们即使在嘈杂的环境中也能听到自己需要的声音,那么每个人都能轻松交流。mpWAV正在创造这样一个世界。
« N'écoutez que les voix dont vous avez besoin dans un monde bruyant »… Park Hyung-min, PDG de mpWAV
Développement d'une solution mpAB qui distingue et supprime automatiquement le bruit et la voix de l'utilisateur sans réglage séparé, tout en modifiant librement l'emplacement du microphone.
– Applicable à divers domaines tels que l'automobile, la robotique, les maisons intelligentes, les bornes interactives et l'Internet des objets domestiques.
– Mise à disposition de l'application « Clean Ear » pour les personnes malentendantes
– Largement utilisé dans la vie quotidienne, notamment pour les bornes interactives sans barrières, la vidéoconférence et les comptes rendus de réunion.
Parfois, lorsque je donne des instructions à mon enceinte connectée, rien ne se passe. Quel pourrait être le problème ?
Les conversations avec l'IA sont devenues monnaie courante. Si les capacités de reconnaissance vocale de l'IA se sont améliorées, ses applications pratiques restent confrontées à des défis. Même avec des capacités de reconnaissance vocale supérieures, les environnements réels sont souvent saturés de bruits divers, ce qui les rend inutilisables si ces bruits ne peuvent être maîtrisés.
Les recherches en reconnaissance vocale évaluent les performances dans des environnements contrôlés, c'est-à-dire des situations propres où le bruit est quasiment éliminé. Or, les environnements vocaux réels sont bien différents. Les bruits de fond, comme la télévision dans un salon, le murmure d'un café, le bourdonnement d'une usine ou le vrombissement d'un moteur de voiture, sont captés par le microphone et perturbent le signal.
Une entreprise s'attaque au problème du dysfonctionnement des interfaces vocales IA dans les environnements bruyants du quotidien. mpWAV se concentre sur les technologies de prétraitement afin de créer un environnement propice au bon fonctionnement de l'IA, plutôt que sur une « IA de reconnaissance vocale améliorée ».
Le PDG Park Hyung-min a obtenu son doctorat en traitement du signal vocal à KAIST et a travaillé comme chercheur à l'Institut de recherche en technologies du langage de l'Université Carnegie Mellon. Nommé professeur au département de génie électrique de l'Université Sogang en 2007, il se consacre depuis à la recherche sur les technologies de traitement du signal permettant de surmonter la distorsion du signal vocal en conditions réelles. Il a développé avec succès une technologie de source commercialisable et a fondé mpWAV.
Nous avons rencontré le PDG Park Hyung-min au laboratoire de recherche de l'université Sogang pour en savoir plus sur la manière dont les technologies d'amélioration et de reconnaissance vocales, ainsi que les technologies de prétraitement de la voix, peuvent changer nos vies dans des environnements complexes et bruyants.

Extraire uniquement le son souhaité, même dans les environnements les plus bruyants et les plus complexes.
Alors, comment mpWAV parvient-il à capturer proprement uniquement l'audio que vous souhaitez entendre dans un environnement bruyant ?
mpAB, la solution phare de mpWAV, intègre la technologie d'annulation d'écho multicanal (mpAEC, Acoustic Echo Canceller) et la technologie de formation de faisceaux (mpBeamforming). mpWAV a remporté le Prix du Premier ministre lors du Salon coréen des inventions et des brevets de 2024 pour mpAB et a obtenu la certification Nouvelle technologie d'excellence (NET) en 2025.
Le phénomène de réenregistrement du son émis par un appareil dans un microphone est appelé écho. Par exemple, lorsqu'un haut-parleur à intelligence artificielle annonce la météo du jour, sa voix est réenregistrée dans le microphone et diffusée. C'est ce qu'on appelle l'écho. Généralement, plusieurs microphones et haut-parleurs sont utilisés, et le son émis par le haut-parleur et l'écho capté par le microphone sont différents.
Les technologies existantes d'annulation d'écho multicanaux doivent déterminer si l'utilisateur parle. Si cette détermination est erronée, la voix de l'utilisateur est également supprimée.
Les technologies existantes de suppression d'écho multicanal doivent déterminer si l'utilisateur parle, mais échouent souvent à le faire et suppriment également sa voix. La détection de la voix de l'utilisateur interrompt l'entraînement, ce qui allonge sa durée et dégrade les performances. En particulier, la suppression d'écho multicanal peut s'avérer problématique car certains sons provenant de plusieurs locuteurs sont identiques tandis que d'autres sont différents, ce qui rend la suppression de l'écho du signal du microphone extrêmement complexe et réduit considérablement les performances.
La technologie de suppression des signaux d'écho multicanaux de mpWAV permet d'identifier et de supprimer efficacement les relations complexes des échos multicanaux, et permet une suppression rapide et excellente des échos sans interruption de l'apprentissage, que l'utilisateur parle ou non.
La technologie de formation de faisceaux de mpWAV optimise automatiquement le son en fonction du seul signal, sans nécessiter de positionnement prédéfini des microphones. Elle combine les signaux de plusieurs microphones pour amplifier les sons provenant de certaines directions et atténuer ceux provenant d'autres.
La technologie de formation de faisceaux classique exigeait de connaître à l'avance la position précise de chaque microphone et de saisir ces positions. Par exemple, le microphone 1 devait être positionné à « 10 cm », le microphone 2 à « 15 cm », et ainsi de suite. En effet, la méthode de combinaison des signaux et la pondération de chaque signal ne pouvaient être déterminées qu'à partir de la connaissance de leur position.
« Le moindre changement dans la conception d'un produit oblige les ingénieurs à recalibrer tous les paramètres, car la position du microphone change. Cela entraîne un réajustement fastidieux à chaque nouvelle version, une augmentation des coûts et, surtout, une dépendance des fabricants envers les fournisseurs de technologie. »
La technologie de formation de faisceaux de mpWAV optimise automatiquement le mixage du signal en analysant uniquement les signaux provenant des microphones. Son principe repose sur sa capacité à sélectionner en temps réel le son de la source sonore cible, sans aucun réglage supplémentaire, même lorsque le placement des microphones est modifié.
mpAB combine ces deux technologies. Son fonctionnement repose sur la ressemblance du signal de sortie final avec la voix de l'utilisateur, indépendamment du placement des microphones. Même en cas de modification de la position ou du nombre de microphones suite à des changements de conception du produit, mpAB optimise automatiquement le signal en fonction du seul signal du microphone, préservant ainsi la qualité vocale sans nécessiter de réajustement.
Le vrai problème n'est pas la technologie, mais l'environnement.
mpWAV a été sélectionnée pour le projet « Super Gap Startup 1000+ » (DeepS) de cette année. L'entreprise développe une technologie qui, grâce à l'installation d'un simple module, active diverses fonctionnalités, notamment la reconnaissance vocale et de mots clés, le traitement du langage et la synthèse vocale, le tout au sein de l'appareil. En septembre dernier, elle avait été sélectionnée pour le programme d'accélération de startups en intelligence artificielle (AI Startup Accelerator) de SK Telecom.
mpWAV collabore avec plusieurs grandes entreprises et instituts de recherche nationaux. Avec A Electronics, la solution a été appliquée aux robots domestiques et aux téléviseurs, améliorant considérablement la reconnaissance des commandes vocales dans des environnements réels, comme les salons. Avec B Automobile, la technologie a été intégrée à un robot guide en magasin. Même dans des environnements bruyants, avec plusieurs haut-parleurs et de la musique d'ambiance, tels que les salles d'exposition et les concessions automobiles, la reconnaissance vocale a fonctionné de manière stable, permettant des conversations naturelles entre les clients et les robots. Avec C, le robot a été équipé de la solution de prétraitement de mpWAV et présenté lors d'une conférence universitaire, démontrant ainsi sa capacité à reconnaître et à répondre avec précision aux voix humaines.
Chaque fois que la reconnaissance vocale est intégrée à des appareils comme les robots guides, les robots domestiques et les systèmes de commande vocale dans les bornes interactives, les équipes de développement se heurtent aux mêmes difficultés. Park affirme que le véritable problème ne réside pas dans la technologie, mais dans l'environnement. Le bruit ambiant en magasin, les voix des autres clients, le moteur du robot et le bruit de la climatisation : tous ces éléments perturbent la reconnaissance vocale par l'IA. L'IA de reconnaissance vocale a déjà atteint un certain niveau de performance. Le problème réside dans la complexité de l'environnement acoustique du quotidien.
« La suppression du bruit implique généralement une distorsion de la voix cible, ce qui réduit inévitablement les performances de la reconnaissance vocale. Cependant, mpAB supprime le bruit sans distorsion, ce qui le rend facilement applicable à tout moteur de reconnaissance vocale client sans dégradation des performances. Nous offrons un support complet pour la mise en œuvre, du logiciel au portage embarqué et à la fabrication de puces SoC, ce qui nous permet de répondre à un large éventail d'exigences clients. »
Clean Ear, une application d'assistance auditive pour les personnes malentendantes.
mpWAV propose également une application Clean Ear pour les personnes souffrant de perte auditive ainsi que pour celles qui ont besoin de conversations et de réunions claires dans des environnements bruyants.
On estime qu'environ 2,5 milliards de personnes dans le monde souffriront de déficience auditive d'ici 2025, dont plus de 700 millions auront besoin d'appareils auditifs ou d'autres dispositifs d'assistance. Si le nombre de personnes malentendantes enregistrées en Corée s'élevait à 440 000 en 2024, le nombre réel de personnes atteintes de déficience auditive serait bien plus élevé.
Le problème réside dans les appareils auditifs. Ils sont extrêmement chers. En raison de leur prix et de leur complexité d'utilisation, plus de 90 % des personnes malentendantes en Corée ne les utilisent pas. Un problème encore plus important est que la fonction première des appareils auditifs est d'amplifier le son.
Au lieu d'amplifier les voix, Clean Ear élimine les bruits de fond et améliore la clarté de la parole. Il vous suffit du microphone et des écouteurs de votre smartphone. Aucun équipement supplémentaire n'est requis, et son prix est abordable.
Le succès de Clean n'est plus à démontrer. L'entreprise a remporté deux prix de l'innovation au CES 2024 dans les catégories « Santé numérique » et « Appareil mobile ». Elle a également reçu un prix d'accessibilité (AccessABILITY Award) du site d'évaluation Reviewed de USA TODAY. Sélectionnée pour le projet de soutien au développement technologique destiné aux populations défavorisées de la ville de Séoul, Clean a mené avec succès des démonstrations dans deux centres d'aide aux personnes âgées.
Utilisé dans divers endroits où la voix est requise.
Avec le développement rapide de l'IA générative, il est clair que les interfaces vocales se généraliseront sur tous les appareils. Le marché est en pleine expansion, à mesure que l'éventail des technologies commercialisées répondant aux attentes des utilisateurs s'élargit. À terme, quasiment tous les appareils intelligents seront dotés d'une interface vocale.
Le marché des interfaces vocales devrait passer d'environ 30,2 milliards de dollars en 2025 à 76,1 milliards de dollars en 2030, soit un taux de croissance annuel moyen de plus de 20 %. La technologie de mpWAV devrait trouver des applications dans de nombreux secteurs, notamment l'automobile, la robotique, la maison intelligente, les bornes interactives et l'Internet des objets (IoT) domestique.
Ces technologies peuvent être utilisées de diverses manières dans la vie quotidienne.
Borne sans obstacle : les personnes malvoyantes peuvent commander sans l’aide d’un vendeur, même au milieu du bruit ambiant, des voix au comptoir et de la musique.
Enregistrement des comptes rendus de réunion : Même lorsque plusieurs personnes prennent la parole simultanément dans une salle de conférence, la voix de chaque intervenant est distinctement séparée et reconnue en temps réel. Vous pouvez ainsi vérifier immédiatement que vos propos ont été fidèlement retranscrits.
Vidéoconférence : Auparavant, si vous étiez dans un café, vous deviez couper votre microphone à cause du bruit de fond, mais avec la solution mpWAV, le bruit du café est supprimé et seule la voix est transmise.

« J’espère que notre technologie pourra rendre le monde meilleur. »
Interrogé sur l'objectif ultime de mpWAV, le PDG Park Hyung-min a répondu comme suit :
Le slogan de mpWAV est « Une vague de chef-d'œuvre pour l'humanité ». Il symbolise l'engagement de l'entreprise à améliorer la qualité de vie, à créer de la valeur sociale grâce à des solutions d'interface vocale et à diffuser des technologies qui connectent les personnes entre elles et les personnes avec la technologie.
Bien que la reconnaissance vocale par IA progresse, le monde réel reste bruyant. Si seulement chacun pouvait entendre les voix dont il a besoin, même dans un environnement bruyant, la communication serait fluide et agréable. mpWAV œuvre à la création de ce monde.
You must be logged in to post a comment.