– 近接音声感知技術で実現した革新的な音声インターフェース「ウィズファリング」3月発売
– 「マウスのように世界を変えるインターフェースを夢見る」
– ウィズファーリング発売後の投資誘致
「今、私たちはチャットGPTで始まったAIとの会話の時代を迎えています。しかし、まだキーボードでのみ会話をしています。会話の本質は音声なのですが。」
Vtouchのキム・ソクジュン代表は現在、音声インターフェースの限界をこのように指摘した。チャットGPTが登場し、AIとの自然な対話が可能になったが、入力方式は依然として過去にとどまっていることを指摘した。
VTouchは10年以上前から音声インターフェースを開発しました。当時、AIスピーカーが登場し、音声が主要なインターフェースになると思ったからだ。しかし、当時AIの性能が実際の対話が可能なレベルまで到達できず、商用化はできなかった。代わりに関連IPを確保したまま時期を待ち、チャットGPTの登場でAIが実際の対話が可能なレベルまで発展すると、Vタッチは音声インターフェース技術を世の中に出すことになった。
V-タッチのキム・ソクジュン共同代表は大学在学時代の2002年イコマース企業を創業して10年間運営し、2012年にVタッチを設立した。共同創業者のキム・ドヒョン代表は東南アジア最大のイコマース企業ラザダ(Lazada)の代表を務めた経営専門家だ。 VTouchは次世代インターフェース技術の開発に注力しており、特に音声インターフェース分野で革新をリードしている。 71件の登録特許と55件の出願特許を保有しており、CESで連続イノベーション賞を受賞し、技術力を認められた。 2024年にはSKテレコムとハナ銀行が運営する「AIスタートアップアクセラレータ2期」に選ばれた。 Vタッチは、音声インターフェース技術を適用したWIZPR RINGを発売した後、シリーズA投資誘致を計画している。
■音声インターフェース時代を準備する

コンピュータと人間の相互作用方式は絶えず進化してきた。初期の命令入力方式からグラフィカルユーザーインターフェース(GUI)へ、続いてタッチスクリーンに発展し、各時代のコンピューティング環境を定義してきた。今AI時代を迎え、音声が新しい標準インターフェースとして注目されている。
キム代表は「デスクトップはキーボードとマウスをベースに完成したコンピューティング環境を作り、モバイルはマルチタッチ技術で新しいコンピューティング時代を開いた。しかし、AIとの対話は依然としてキーボードという枠組みに閉じ込められている状況です」と現在の限界を指摘した。
音声は人間の最も自然なコミュニケーション方式です。複雑なコンテキストとニュアンスを効果的に伝えることができ、別途学習しなくても誰でも簡単に使用できる。特にチャットGPTに代表されるAIとのインタラクティブな相互作用が増え、テキスト入力の限界を超える新たなインターフェースとして音声が注目されている。
音声インターフェースがもたらす変化は革新的です。歩いたり運動したりしてもコンピュータを活用でき、画面を見なくてもよいハンズフリー方式で、日常の中で自然にAIとコミュニケーションできる。しかし、音声インターフェースの普及にはいくつかの技術的障壁がありました。周辺騒音による誤動作、プライバシー侵害の懸念、長い応答時間と頻繁な認識エラー、公共の場での使用制約などが代表的な問題点だった。
V-Touchはこれらの問題を物理的原理で解決しました。キム代表は「声は距離の二乗に反比例してエネルギーが減少する特性があります。この物理原理を活用し、近接音声のみを認識する方法で既存の限界を克服しました。 GUIが登場して20年が過ぎて商用化されたように、新しいコンピューティングインターフェースが普及するまでには長い時間が必要です。私たちは、音声が自然なインターフェースとして位置づけられる時代を準備してきたし、今、その時期が到来したと確信しています」と明らかにした。
■ウィズファーリング、AI時代の新しいインターフェースを提示する

音声インターフェース技術を適用した「WIZPRING」(WIZPR RING)が3月発売を控えている。リング状のウェアラブルデバイスとして開発されたウィズファーリングは、AIとの自然な会話を実現する革新的な音声インターフェースだ。
スマートフォンがポケットにあっても音声だけでメッセージ転送、音楽制御、スケジュール管理が可能だ。歩き、運動、運転など、従来コンピュータの使用が難しかった状況でもAIと自由にコミュニケーションできる。特にウィズファーリングは、既存の音声秘書とは異なり、実際の会話に近い自然な相互作用が特徴だ。音声がリアルタイムでテキストに変換されて表示され、固有名詞や複雑な文章も正確に認識する。また、翻訳、スケジュール管理、音楽再生など様々なアプリを制御でき、活用度が高い。
キム代表は「歩き回ったり、運動して運転している間にもAIと会話することができ、既存のコンピュータを使用しにくかった状況でもAIと自由にコミュニケーションできます。これが私たちが描く未来です。ウィズファーリングは、単なる製品ではなく、AI時代の新しいインターフェースを提示するソリューションです」と強調した。
ウィズファーリングは北米クラウドファンディングを通じてすでに2億ウォン規模の予約注文を確保しており、3月から正式販売を開始する。
■ユーザーが意図した音声のみを正確に認識する近接音声活動検出技術の適用
Vタッチは、ウィズファリングに近接音声活動感知技術(PVAD、Proximity Voice Activity Detection)を適用した。 PVADは、音声が距離の2乗に反比例して減少する物理的特性を利用した技術です。例えば、5cmの距離の音声は50cmの距離より100倍強いエネルギーを有し、この原理を活用して近接距離の音声、すなわちユーザが意図した音声のみを選択的に認識する。
PVAD技術は、単純な音声認識を超えた新しいインターフェースを提示します。既存のプッシュツートーク方式がボタンを押して話す必要がある場合、PVADは近接動作だけで音声認識が可能なクローズトゥトーク方式を実装した。これにより実際に会話するように自然な相互作用が可能だ。
PVAD技術の重要な強みは、正確な音声認識と高速反応速度です。既存の音声認識機器は3〜4秒の起動時間を必要としましたが、PVADはリアルタイムで音声を認識します。 PVADのもう一つの強みは、ささやく声も正確に認識できることです。これにより、公共の場でもプライバシーを守り、AIと自由にコミュニケーションできる。また、騒々しい環境でも電話をかけるように近づけて言えば正確な認識が可能で、実際の使用環境での活用度が非常に高い。
■「音声インターフェースを最初に作った企業として記憶されたい」
キム代表は「マウスを初めて作った人が誰なのかは分からないが、その革新がもたらした変化は皆が知っています。私たちもそのような変化を作りたいと思います」と述べた。続いて「ウィズファーリング技術を私たちの手で市場に披露し、成功裏に事業化することが目標です。人々が歩き回っても自然に音声でコミュニケーションする時代を作りたいと思います」と抱負を明らかにした。
VタッチはチャットGPTに代表される対話型AIの成長に合わせて、キーボードとタッチスクリーンを越えた音声ベースの次世代インターフェースで事業領域を拡張する計画だ。 AI市場が急激に変化する時点で、Vタッチの音声インターフェースの革新がもたらす変化が注目されています。
You must be logged in to post a comment.