리턴제로, DCASE Challenge 2022 대회 참여

AI 스타트업 ‘리턴제로’ 음성인식 기술력이 국제적으로 입증됐다.

눈으로 보는 통화 앱 ‘비토(VITO)’를 운영중인 리턴제로(대표 이참솔)는 세계적인 인공지능(AI) 기반 음향 이벤트 및 장면 인식 기술 경진대회 ‘DCASE Challenge 2022’에 참여해 우수한 성적을 거뒀다고 15일 밝혔다.

2013년 첫 개최 이후, 올해로 8회째를 맞이한 해당 대회는 세계 최대 전기·전자기술자협회(IEEE) 산하 AASP가 주관하고 애플, 구글, 마이크로소프트, IBM 등 유수 기관이 후원하는 음향 기술 관련 대회다. 올해는 총 6개 분야의 과제(task)에 전 세계 기업 및 대학, 기관 등이 포함된 135개 팀이 410개의 제안 시스템을 제출하며 과제별 기술 경쟁을 펼쳤다.

리턴제로 팀이 참여한 실내 음향 이벤트 인식 분야(task4)에서는 AI 기술을 통해 실내 환경에서 발생할 수 있는 10개의 다양한 소리를 탐지 및 구분해내는 과제가 주어진다. 음향 이벤트 인식은 청각 인지 능력을 모방하기 위한 AI 기술로써, 일상에서 발생할 수 있는 수많은 소리를 탐지하고 구분하는데 활용되는 기술이다.

시각적으로 확인할 수 없는 사각지대에서 발생한 상황을 소리만으로도 인식할 수 있다는 강점이 있으며, 해당 기술을 활용하면 청력이 저하된 사람을 위한 공간 지각 서비스, 안전 상황 감시, 실내 상황 모니터링을 위한 AI 스피커 등 다양한 추가 응용 기술 개발도 가능하다.

본 대회에 참여한 리턴제로 리서치팀 소속의 서상원, 이동윤 연구원은 ▲대화 소리, ▲알람/초인종/전화벨 소리, ▲흐르는 물소리, ▲청소기 소리 등 실내에서 발생할 수 있는 10개의 대상 음향 이벤트 중에서 어떤 소리가 언제 발생하는지를 파악하는 과제를 성공적으로 수행해 우수한 성적을 거뒀다.

연구진은 과제 해결을 위해 다수의 데이터 증강 기법을 연결하여 다양한 패턴의 데이터가 실시간으로 생성될 수 있도록 독자적인 파이프라인을 구성했다. 이를 통해 노이즈에 강한 예측 결과를 낼 수 있었으며 데이터 불충분 문제도 보완할 수 있었다. 여기에 외부 데이터에서 해당 과제 해결에 도움되는 샘플만을 추가하여 더 큰 규모의 훈련 데이터셋을 구성하는 방법도 고안해냈다.

그 결과 리턴제로는 광주과학기술원(GIST)과 함께 해당 분야에 참여한 29개 팀 중 국내팀으로서는 최고 성적인 공동 4위를 차지하는 영예를 안으며 국내 대표 AI 음성인식 기업으로서의 입지를 다시금 공고히 했다. 1위부터 3위는 각각 독일 파더보른 대학, 중국 바이트댄스 AI랩, 중국과학원대학(UCAS)이 차지했다.

리턴제로는 이와 같은 성과를 견인했던 해당 시스템을 활용해 자사가 보유한 방대한 양의 레이블링되지 않은 데이터 학습에도 적극 활용할 예정이다. 또한, 리턴제로의 음성인식 및 화자분리 엔진인 모세(Moses)엔진에도 이를 반영해 보다 향상된 음성 구간 탐지 모델을 설계한다는 계획이다.

리턴제로 이참솔 대표는 “내로라하는 글로벌 기업 및 유수 기관 등이 참여한 이번 대회에서 리턴제로 팀이 두각을 나타내고 좋은 결과를 이뤄내 기쁘다”며, “이번 성과를 자사의 데이터 학습 및 기존 음성인식 모델을 더욱 향상시키는데 활용하여 서비스를 계속해서 고도화 해 나갈 예정이니 앞으로도 많은 관심과 기대를 부탁 드린다”고 말했다.

 

관련기사더보기

%d bloggers like this: