– マイクの配置を自由に変更しながら、別途のチューニングなしで騒音とユーザー音声を自動的に区分・削除するmpABソリューション開発
– 自動車、ロボット、スマートホーム、キオスク、ホームIoTなど、さまざまな分野に適用
– 難聴者のための「きれい耳」アプリの供給
– バリアフリーキオスク、テレビ会議、会議録作成など日常生活のあちこちでも多様に活用
AIスピーカーに向けて命令しても何の反応もない場合がある。何が問題なのか?
AIとの対話が日常化した。 AIの音声認識率が高くなったが、実際の適用において解決すべき問題がある。 AIの音声認識率が優れていても、実生活では各種騒音でいっぱいであり、このような環境を制御できなければ無駄だ。
音声認識研究は、制御された環境、つまりほぼすべてのノイズを排除したクリーンな状況でパフォーマンスをテストします。一方、現実の音声使用環境はまったく異なる。リビングルームのテレビ音、カフェのうるさい、工場の機械音、自動車のエンジン音など、バックグラウンドノイズがマイクに受信され、信号が歪む。
実生活のノイズ環境でAI音声インターフェースが正しく動作しない問題を解決する企業がある。 mpWAV(mpWAV)は「より良い音声認識AI」の代わりに「AIが正しく動作できる環境」を作る前処理技術に集中した。
パク・ヒョンミン代表はカイストで音声信号処理で博士学位を受けた後、カネギメロン大学言語技術研究所で研究員として活動した。 2007年に西江大学電子工学科教授に任用された後、実際の環境での音声信号歪みを克服する信号処理技術を研究しており、商用化可能な源泉技術の開発に成功しmpWAVを創業した。
西江大学研究室でパク・ヒョンミン代表に会い、日常の複雑な雑音環境での音声向上と認識技術、音声前処理技術が今後の生活にどのような変化をもたらすかについて聞いた。

どんなに騒々しく複雑な環境でも、希望の音声だけを抽出
それでは、mpWAVはノイズ環境の中でどのように聞きたい音声だけをきれいにかけることができるだろうか?
mpWAVのコアソリューションであるmpABは、マルチチャンネルエコー信号除去技術(mpAEC、Acoustic Echo Canceller)とビームフォーミング技術(mpBeamforming)を統合したものです。 mpWAVはmpABで2024年大韓民国発明特許大戦で国務総理賞を受賞し、2025年新技術(NET)認証を獲得した。
機器から出る音がマイクに再び入る現象をエコーという。 「例えば、AIスピーカーが「今日の天気をお知らせします」と言うとき、スピーカーの音声がマイクに再び入って再生されるのがエコー現象だ。
既存の多チャンネルエコー信号除去技術は、現在ユーザが話しているかどうかを判断しなければならない。この判断が間違っていると、ユーザーの声まで削除されます。
「従来の多チャンネルエコー信号除去技術は、ユーザーが話しているかどうかを判断しなければならないが、判断に失敗してユーザー音声まで一緒に除去されることが多い。ユーザー音声を感知すると学習を中断して学習時間が長くなり性能が低下する問題もあります。急激に落ちます。」
mpWAVの多チャンネルエコー信号除去技術は、多チャンネルエコーの複雑な関係性を効果的に把握して除去することができ、ユーザーの発火の有無に応じて学習を中断することなく、迅速で優れたエコー除去が可能です。
mpWAVのビームフォーミング技術は、マイク位置をあらかじめ設定しなくても信号だけで自動的に最適化する技術である。ビームフォーミングとは、複数のマイクの信号を組み合わせて特定の方向の音が強く、他の方向の音が弱くする技術をいう。
従来のビームフォーミング技術は、マイクの正確な位置を事前に知って正確な位置をすべて入力しなければならなかった。例えば、1番マイクは「10cm位置」、2番マイクは「15cm位置」と設定しなければならなかった。マイク位置を知ってこそ信号を組み合わせる方式と、各マイク信号にどのくらいの重みを与えるかを決定できるからだ。
「製品のデザインが少しでも変わると、マイクの位置が変わるため、エンジニアがすべての設定をやり直す必要があります。そのため、新製品が出るたびに再調整に時間がかかり、コストが増加し、何よりもメーカーが技術サプライヤに依存する問題が発生します。」
mpWAVのビームフォーミング技術は、マイクからの信号のみを分析すると、自動的に信号を最適に組み合わせます。 mpWAVのビームフォーミング技術の核心は、マイクの配置を自由に変更しても、別途のチューニングなしでリアルタイムで目標音源の音だけを選別することにある。
この2つの技術を合わせたのがmpABだ。 mpABは、最終出力信号がユーザの音声に類似しているかどうかを基準にして動作するため、マイクの配置には無関係です。製品設計変更でマイク位置や個数が変わっても、マイク信号だけで自動最適化を行い音声品質を維持するため、再チューニング負担がない。
本当の問題は技術ではなく環境
mpWAVは今年「超格差スタートアップ1000+」プロジェクト(ディープス)に選定され、モジュールだけを装着すれば、音声および機動語認識だけでなく、言語処理、音声合成まで様々な機能を機器内ですぐに処理できる技術を開発している。去る9月にはSKテレコムが主管する「AIスタートアップアクセラレータ」に選抜された。
mpWAVは、多くの大企業や国策研究所と協力している。 A電子とは、ホームロボットとTVにソリューションを適用し、実際のリビング環境で音声コマンド認識率を大幅に向上させた。 B自動車とは店舗案内ロボットに技術を適用した。ショールームやディーラーのように、複数の人が話し、背景音楽が出てくる環境でも音声認識が安定して機能し、顧客とロボットが自然に会話できるようになった。 CとはロボットにmpWAVの前処理ソリューションを搭載し、学術大会で実演し、ロボットが人の声を正確に認識して応答する性能を立証した。
案内ロボット、ホームロボット、キオスクの音声注文システムなどの機器に音声認識が搭載されるたびに、開発チームは同じ問題に直面する。本当の問題は技術ではなく環境というのが朴代表の主張だ。店舗の背景音、他人の声、ロボット自身のモーター音、エアコン騒音。これらすべてがAIの音声認識を妨げる。音声認識AIの性能自体はすでに一定レベルに達している。問題は現実の複雑な音響環境です。
「一般的にノイズを除去する過程中に目標音声歪みが伴い、音声認識性能が低下するしかないのに、mpABはノイズを除去しながらも音声歪みが発生せず、顧客会社が保有するどんな音声認識エンジンにも性能低下なくすぐに適用できます。ソフトウェアから組み込みポッティング、SoCチップ製作まで
難聴者のための聴覚補助アプリ、「きれいな耳」
mpWAVは難聴者だけでなく、騒音の多い環境で明確な会話や会議が必要な人のためのきれいな耳アプリも提供している。
世界的に2025年基準で約25億人の人々が聴力損失を被っていると予測され、このうち7億人以上が補聴器などの聴力補助機器が必要だと推定している。韓国の聴覚障害登録人口は2024年基準で44万人だが、実際の難聴者はこれよりはるかに多いと推定される。
問題は補聴器だ。補聴器は非常に高価です。価格と使いやすさのため、国内の場合、90%以上の難聴者が補聴器を使用していない。より大きな問題は、補聴器の主な機能が音増幅であるということです。
きれい耳は音声を増幅するのではなく、背景ノイズを除去し、音声を明確にする。スマートフォンのマイクとイヤホンだけでいい。価格負担もなく、別途の機器も必要ない。
スキンの成果はすでに証明されている。 2024年、CESで「デジタルヘルス」部門と「モバイルデバイス」部門の2つの革新賞を受けた。 USA TODAYのレビューサイトReviewedが選定する「AccessABILITY Awards」も受賞した。ソウル市の弱者のための技術開発支援事業に選定され、高齢者福祉館2カ所で実証も成功裏に終えた。
音声が必要な様々な場所に活用
「生成型AIが急激に発展し、あらゆる機器に音声インターフェースが広がるのは自明です。技術的にも、ユーザーの期待を満たす商用化の範囲がますます広がり、市場が急速に拡大しています。
音声インターフェース市場の規模は現在、約302億ドル(2025年)から2030年には761億ドルに成長すると予測されており、年平均20%以上の成長率を記録すると予想される。 mpWAVの技術は、自動車、ロボット、スマートホーム、キオスク、ホームIoTなど様々な分野に適用されるものと見られる。
このような技術は日常生活の至る所でも多様に活用できる。
バリアフリーキオスク:視覚障害者が周辺の背景音、カウンターの声、音楽の中でも店員の助けなしで自分で注文することができる。
会議録の作成:会議室で多くの人が同時に話しても、各話者の声を分離してリアルタイムで認識する。会議中に自分の発言が正確に記録されているかすぐに確認できます。
テレビ会議:以前はカフェにいたら背景音のためにマイクをオフにしなければなりませんでしたが、mpWAVソリューションを使用するとカフェ騒音は削除され、音声だけが伝わります。

「私たちの技術を通して世界がより良く変わってほしい」
パク・ヒョンミン代表にmpWAVが究極的に追求する目標について尋ねるとこう答えた。
mpWAVのスローガンが「Masterpiece Wave for Humanity」だ。音声インターフェースソリューションを通じて人間の生活の質を高め、社会的価値を実現し、人と人、人と技術をつなぐ技術を社会に広げるという意味だ。
音声AIの認識率は高くなっているが、実生活は多くの騒音に満ちている。騒々しい環境でも必要な音声だけを選別して聞くことができれば、誰でも気軽にコミュニケーションできるだろう。そんな世界をmpWAVが作っていく。
You must be logged in to post a comment.