语音开启的AI时代,Vtouch绘制的界面未来

– 采用近距离语音检测技术的创新语音界面“Whispering”将于 3 月发布

– “梦想有一个像鼠标一样改变世界的界面”

– 推出 Whispering 后吸引投资

“我们现在正进入与人工智能对话的时代,这个时代始于ChatGPT。但我们仍然只通过键盘进行交流。 “对话的本质是声音。”

Vtouch 首席执行官 Seok-Joong Kim 指出了当前语音界面的局限性。他指出,随着ChatGPT的出现,与AI进行自然对话已经成为可能,但输入法仍然停留在过去。

VTouch 已开发语音界面十余年。当时,随着AI音箱的出现,人们认为语音将成为主要界面。但当时AI的性能还没有达到可以进行实际对话的水平,因此还未能实现商业化。相反,他们在确保相关 IP 的同时等待合适的时机,随着 ChatGPT 的出现,AI 发展到可以进行实际对话的水平,VTouch 将其语音界面技术推向了世界。

Vtouch 联合首席执行官金锡中 (Seok-Joong Kim) 于 2002 年在大学期间创立了一家电子商务公司,并运营了 10 年,之后于 2012 年成立了 Vtouch。联合创始人兼CEO金道铉是一位管理专家,曾担任东南亚最大的电子商务公司Lazada的首席执行官。 VTouch 专注于开发下一代界面技术,尤其引领语音界面领域的创新。该公司拥有71项注册专利和55项正在申请的专利,其技术实力也因在CES上连续斩获创新大奖而得到认可。 2024年,被选为SK电讯和韩亚银行运营的‘AI初创企业加速器第二批’。 Vtouch 计划在推出使用语音界面技术的 WIZPR RING 后吸引 A 轮投资。

■ 为语音界面时代做好准备

Vtouch 首席执行官 Seok-Joong Kim

计算机与人类互动的方式在不断发展。它定义了每个时代的计算环境,从早期的命令行输入方法发展到图形用户界面(GUI),再到触摸屏。如今进入AI时代,语音作为新的标准界面越来越受到关注。

金墉表示:“台式机基于键盘和鼠标创建了完整的计算环境,而移动设备则通过多点触控技术开启了计算的新时代。但他指出了目前的局限性,称“与人工智能的对话仍然局限于键盘。”

声音是人类交流最自然的形式。它可以有效地传达复杂的背景和细微差别,任何人都可以轻松使用它,而无需单独学习。特别是随着以ChatGPT为代表的与AI的对话交互不断增多,语音作为可以克服文本输入限制的新界面正备受关注。

语音界面将带来革命性的变化。您可以在散步或运动时使用电脑,无需看屏幕,也可以在日常生活中以免提的方式自然地与AI交流。然而,语音界面的普及也存在一些技术障碍。典型问题包括因环境噪音导致的故障、隐私问题、响应时间长、频繁的识别错误以及在公共场所使用的限制。

VTouch 利用物理原理解决了这个问题。金代表表示,“声音具有能量损失与距离的平方成反比的特性。通过利用这一物理原理,我们克服了仅能识别附近声音的现有限制。正如 GUI 花了 20 年时间才实现商业化一样,新的计算界面也需要很长时间才能流行起来。他说:“我们一直在为语音成为自然界面的时代做准备,我们相信这个时代已经到来。”

■ 悄悄话,呈现AI时代新界面

金锡中代表演示了将于下个月发布的“Whispering”。

采用语音界面技术的“WIZPR RING”预计将于3月发售。 Whispering 是一款环形可穿戴设备,是一种创新的语音界面,可以与人工智能进行自然对话。

即使您的智能手机在口袋里,您也可以仅使用语音发送消息、控制音乐和管理日程安排。即使在散步、锻炼、开车等以前难以使用计算机的场合,你也可以自由地与AI交流。具体来说,与现有的语音助手不同,Whispering 的特点是交互自然,接近实际对话。语音实时转化为文字显示,甚至专有名词、复杂句子都能准确识别。它还非常有用,因为它可以控制各种应用程序,如翻译、日程管理和音乐播放。

金墉首席执行官表示:“您可以在散步、锻炼或开车时与人工智能对话,即使在以前难以使用计算机的情况下,您也可以自由地与人工智能交流。”这就是我们所设想的未来。 “Whispering不仅仅是一个简单的产品,而是一个为AI时代呈现新界面的解决方案。”他强调。

《Whispering》目前已通过北美众筹获得价值2亿韩元的预购,并将于3月开始正式发售。

■ 应用接近语音活动检测技术,可准确识别用户想要发出的语音

VTouch 将近距离语音活动检测 (PVAD) 技术应用于 Whispering。 PVAD 是一种利用声音与距离的平方成反比的物理特性的技术。例如,距离 5cm 处的声音的能量比距离 50cm 处的声音的能量高 100 倍。利用此原理,可以选择性地识别近距离的声音,即用户想要听到的声音。

PVAD 技术提供了一种超越简单语音识别的新界面。现有的即按即说方法需要按下按钮然后说话,而 PVAD 实施了一种近距离通话方法,只需近距离手势即可实现语音识别。这使得互动变得自然,就像进行真实的对话一样。

PVAD技术的核心优势是语音识别准确、响应速度快。现有的语音识别设备需要3-4秒的激活时间,而PVAD可以实时识别语音。 PVAD 的另一个优势是它甚至可以准确识别耳语。这使得您可以自由地与 AI 交流,同时即使在公共场所也能保护您的隐私。此外,即使在嘈杂的环境中,只要靠近设备讲话,就像打电话一样,就可以实现准确识别,因此在实际使用环境中非常有用。

■ “我希望人们记住我是第一家创建语音界面的公司。”

“我们不知道谁最先发明了鼠标,但我们都知道创新带来的变化,”金说。 “我们也想做出这样的改变,”他说。他继续说道,“我们的目标是亲手将Whispering技术推向市场,并成功实现商业化。他表达了自己的愿望:“我想创造一个人们可以在走路时用声音自然交流的时代。”

随着以 ChatGPT 为代表的对话式人工智能的发展,VTouch 计划将其业务领域扩展到超越键盘和触摸屏的下一代语音界面。在AI市场快速变化的当下,VTouch语音界面创新带来的变化值得关注。