开发一种mpAB解决方案,无需单独调整即可自动区分和消除噪声和用户语音,同时还能自由改变麦克风位置。
– 适用于汽车、机器人、智能家居、自助服务终端、家庭物联网等各个领域。
– 为听力障碍人士提供“清洁耳朵”应用程序
– 广泛应用于日常生活,包括无障碍自助服务终端、视频会议和会议记录。
有时,当我向我的AI音箱发出指令时,它没有任何反应。这可能是什么问题呢?
与人工智能对话已变得司空见惯。虽然人工智能的语音识别能力不断提升,但实际应用仍面临挑战。即使人工智能拥有卓越的语音识别能力,现实世界的环境也常常充斥着各种噪音,如果无法控制这些环境,人工智能就无法发挥作用。
语音识别研究通常在受控环境下测试其性能,即在几乎所有噪声都被消除的纯净环境中进行。然而,现实世界的语音环境截然不同。诸如客厅里的电视声、咖啡馆里的低语声、工厂里的机械嗡鸣声以及汽车引擎的轰鸣声等背景噪声都会被麦克风拾取,从而干扰信号。
有一家公司致力于解决人工智能语音界面在嘈杂的真实环境中无法正常工作的问题。mpWAV(mpWAV)专注于预处理技术,旨在创造一个人工智能能够正常运行的环境,而不是仅仅追求“更好的语音识别人工智能”。
首席执行官朴亨敏在韩国科学技术院(KAIST)获得语音信号处理博士学位,曾任卡内基梅隆大学语言技术研究所研究员。2007年,他被任命为西江大学电子工程系教授,此后一直致力于研究能够克服实际环境中语音信号失真的信号处理技术。他成功开发出具有商业可行性的音源技术,并创立了mpWAV公司。
我们在西江大学研究实验室与首席执行官朴亨敏会面,了解语音增强和识别技术以及语音预处理技术如何在复杂、嘈杂的环境中改变我们的生活。

即使在最嘈杂、最复杂的环境中,也能只提取所需的声音。
那么,mpWAV 如何在嘈杂的环境中清晰地只捕捉你想听到的音频呢?
mpWAV的核心解决方案mpAB集成了多通道回声消除技术(mpAEC,声学回声消除器)和波束成形技术(mpBeamforming)。mpWAV凭借mpAB在2024年韩国发明专利展览会上荣获总理奖,并于2025年获得优秀新技术(NET)认证。
设备发出的声音被麦克风重新录制下来的现象称为回声。例如,当人工智能扬声器说“我来告诉你今天的天气”时,扬声器的声音会被麦克风重新录制下来并播放。这就是回声。通常会使用多个麦克风和扬声器,扬声器发出的声音和麦克风接收到的回声是不同的。
现有的多通道回声消除技术必须判断用户是否正在说话。如果判断错误,用户的声音也会被消除。
现有的多通道回声信号消除技术必须判断用户是否在说话,但往往无法准确判断,反而会将用户的声音也消除掉。检测到用户的声音还会导致系统停止训练,延长训练时间并降低性能。尤其值得注意的是,多通道回声消除可能存在问题,因为来自多个说话者的某些声音相同,而另一些声音则不同,这使得从麦克风信号中消除回声变得极其复杂,并大幅降低性能。
mpWAV 的多通道回声信号消除技术能够有效识别和消除多通道回声的复杂关系,并能根据用户是否说话,在学习过程中实现快速、优秀的回声消除,而不会中断学习。
mpWAV 的波束成形技术仅根据信号自动优化声音,无需预先配置麦克风位置。波束成形技术将来自多个麦克风的信号组合起来,放大来自特定方向的声音,并减弱来自其他方向的声音。
传统的波束成形技术需要预先知道每个麦克风的精确位置,并将它们全部精确位置输入系统。例如,麦克风 1 必须设置为“10 厘米位置”,麦克风 2 必须设置为“15 厘米位置”,依此类推。这是因为只有知道麦克风的位置,才能确定信号组合方式和每个麦克风信号的权重。
“即使产品设计发生最细微的变化,由于麦克风位置的改变,工程师也需要重新校准所有设置。这导致每次新产品发布都需要耗费大量时间进行重新调校,增加了成本,而最重要的是,这使得制造商不得不依赖技术供应商。”
mpWAV 的波束成形技术通过分析来自麦克风的信号,自动优化信号混合。mpWAV 波束成形技术的核心在于,即使麦克风位置随意改变,它也能实时选择性地只提取目标声源的声音,无需任何额外的调整。
mpAB 融合了这两种技术。mpAB 的工作原理是基于最终输出信号是否与用户的声音相似,因此不受麦克风位置的影响。即使由于产品设计变更导致麦克风的位置或数量发生变化,mpAB 也能仅根据麦克风信号自动优化,从而在无需重新调音的情况下保持语音质量。
真正的问题不在于技术,而在于环境。
mpWAV入选了今年的“Super Gap Startup 1000+”项目(DeepS)。他们正在开发一种技术,只需安装一个模块,即可在设备内部实现多种功能,包括语音和提示词识别、语言处理和语音合成。去年9月,他们入选了由SK Telecom主办的“AI Startup Accelerator”项目。
mpWAV正与多家大型企业和国家级科研院所开展合作。与A电子公司的合作中,该解决方案被应用于家用机器人和电视,显著提升了在真实客厅环境中的语音指令识别率。与B汽车公司的合作中,该技术被应用于一款门店导购机器人。即使在展厅和经销店等有多位发言人和背景音乐的环境中,语音识别也能稳定运行,实现了顾客与机器人之间自然流畅的对话。与C公司的合作中,该机器人配备了mpWAV的预处理解决方案,并在学术会议上进行了演示,展示了该机器人能够准确识别并响应人声。
每当语音识别技术被集成到导览机器人、家用机器人和自助点餐机语音点餐系统等设备中时,开发团队都会面临同样的挑战。Park认为,真正的问题不在于技术本身,而在于环境。商店里的背景噪音、其他人的声音、机器人自身的马达声以及空调噪音——所有这些都会干扰人工智能的语音识别。语音识别人工智能已经达到了一定的性能水平。问题在于现实生活中复杂的声学环境。
“通常情况下,噪声消除会造成目标语音失真,这不可避免地会降低语音识别性能。然而,mpAB 能够在不失真的情况下消除噪声,因此可以轻松应用于任何客户的语音识别引擎,而不会降低性能。我们提供从软件到嵌入式移植和 SoC 芯片制造的全面实施支持,使我们能够满足各种客户需求。”
Clean Ear,一款面向听力障碍人士的助听应用程序
mpWAV 还为听力受损人士以及需要在嘈杂环境中进行清晰对话和会议的人士提供了一款名为“Clean Ear”的应用程序。
据估计,到2025年,全球约有25亿人将患有听力损失,其中超过7亿人需要助听器或其他辅助设备。截至2024年,韩国登记在册的听力障碍人士为44万人,但实际听力损失人数估计远高于此。
问题出在助听器上。它们价格极其昂贵。由于价格和使用上的限制,韩国超过90%的听力障碍人士没有使用助听器。更大的问题是,助听器的主要功能是放大声音。
Clean Ear 并非放大声音,而是消除背景噪音,使语音更清晰。您只需要智能手机的麦克风和耳机即可。无需其他设备,而且价格实惠。
Clean 的成功已得到证实。它在 2024 年国际消费电子展 (CES) 上荣获“数字健康”和“移动设备”类别的两项创新奖。此外,它还获得了《今日美国》旗下评论网站 Reviewed 颁发的“无障碍奖”。Clean 还入选了首尔市政府面向弱势群体的技术开发支持项目,并在两家老年福利中心成功完成了演示。
用于各种需要语音的场合。
随着生成式人工智能的飞速发展,语音界面显然将普及到所有设备。随着满足用户期望的商业化技术不断涌现,市场也在迅速扩张。从长远来看,几乎所有智能设备都将配备语音界面。
语音接口市场预计将从2025年的约302亿美元增长到2030年的761亿美元,年均增长率超过20%。mpWAV的技术有望应用于包括汽车、机器人、智能家居、自助服务终端和家庭物联网在内的广泛领域。
这些技术在日常生活中可以以多种方式应用。
无障碍自助点餐机:视力障碍人士即使在有背景噪音、柜台说话声和音乐的情况下,也可以无需店员的帮助进行点餐。
会议记录:即使会议室里多人同时发言,系统也能实时分离并识别每位发言者的声音。您可以立即查看您在会议期间的发言是否已被准确记录。
视频会议:以前,如果你在咖啡馆里,由于背景噪音,你不得不关闭麦克风,但有了 mpWAV 解决方案,咖啡馆的噪音就会被消除,只传输人声。

“我希望我们的技术能够让世界变得更美好。”
当被问及mpWAV的最终目标时,CEO朴亨敏回答如下:
mpWAV 的口号是“为人类创造杰作般的波形”。它象征着公司致力于通过语音界面解决方案改善生活质量、实现社会价值,并传播连接人与人、人与科技的技术。
虽然语音AI的识别率不断提高,但现实生活仍然充满噪音。如果人们即使在嘈杂的环境中也能听到自己需要的声音,那么每个人都能轻松交流。mpWAV正在创造这样一个世界。
You must be logged in to post a comment.