음성인식 AI 시장, 스타트업 날개 달고 고속 성장중

바야흐로 인공지능의 시대다.

인공지능(이하 AI)은 1959년에 MIT AI연구소를 설립한 맥카시와 마빈 민스키, 카네기멜론 대학에 인공지능 연구소를 만든 앨런 뉴웰과 허버트 사이먼과 같은 개척자들에 의해 실험학문에서 시작돼 어느새 60년을 넘게 인류와 함께하며 성장했다.

초기 인공지능은 게임·바둑 등의 분야에 사용되는 정도였지만, 실생활에 응용되기 시작하면서 지능형 로봇 등 활용 분야가 비약적으로 발전했다. 또 신경망, 퍼지이론, 패턴 인식, 전문가 시스템, 자연어 인식, 이미지 처리, 컴퓨터 시각, 로봇공학 등 다양한 분야가 인공지능의 일부분을 이루고 있다.

인공지능은 그 자체만으로 존재하는 것이 아니라 컴퓨터과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입해 그 분야의 문제 해결에 활용하려는 시도가 활발히 이뤄지고 있다.

특히 위드코로나 시대로 접어들며 비대면 소통과 디지털 커뮤니케이션이 익숙해지며 음성인식 AI 시장이 고속 성장하고 있다. 음성인식 AI는 스마트폰이나 자율주행 차량, 각종 전자기기를 비롯한 다양한 산업군에 녹아 들며 실생활화 되고 있다.

음성인식 시장 속에서도 특히 까다롭다고 알려진 한국어 역시 수요가 급속히 늘기 시작하면서 국내 음성인식 역시 빠른 속도로 진화를 거듭하고 있다. 이런 국내 음성인식 AI 시장 성장에는 IT 대기업은 물론 스타트업까지 자체 기술력을 보이며 급성장에 날개를 달아주고 있다.

◆ 청각 장애인 위해 만든 STT ‘소보로’

소보로는 ‘소리를 보는 통로’의 줄임말로, 청각 장애인을 위해 소리를 눈으로 볼 수 있는 기술을 만들어 서비스하는 STT(Speech to text) 스타트업이다.

‘소보로’는 청각장애인을 위해 만들어졌기 때문에 네이버의 클로바노트처럼 녹음 후 파일을 텍스트로 바꿔주거나, 한국어에 최적화되지 못한 구글의 STT의 단점을 보완했다.

또 청각 장애인 교육 페인포인트를 해결하기 위해 과목마다 주로 쓰이는 단어를 별도로 입력해 STT엔진이 단어를 헷갈려 하지 않도록 하고 있다. 실제로 ‘소보로’는 전국 각 시도 교육청과 계약돼 초중고 청각장애인들의 수업에 활용되고 있다.

특히 ‘소보로’는 단순히 청각장애인들만이 아닌 난청을 겪는 노인 인구들의 의료진료에도 사용되고 있다.

◆ 음성인식에서 시작해 가상인간까지 발전한 ‘마인즈랩’

‘마인즈랩’은 지난 2014년 창업한 스타트업으로 음성·시각·언어(사고)·아바타 등 종합 AI 엔진을 개발하고 AI 기술 구독 플랫폼인 ‘maum.ai’를 운영하고 있다.

‘마인즈랩’은 창업 이후 산업 각 분야에서 AI 서비스를 제공하고 있다. 콜마인즈와는 음성인식과 텍스트 분석을 중심으로 한 고객센터 분석 및 자동화 솔루션, 마인즈앤컴퍼니와는 AI 컨설팅, 에임로보틱스와는 로봇 사업을 펼치고 있다. 이에 ‘마인즈랩’은 현재 40여종의 SoTA(State of The Art, 최첨단 수준) AI 알고리즘을 자체 기술력으로 상용화했다.

특히 마인즈랩은 지난 3월 사용자의 음성을 95% 이상 이해하고 0.5초 이내 분석한 뒤 응답할 수 있도록 설계된 AI 휴먼 ‘M1’을 공개했다. 음성·시각·언어(사고)·아바타 등 AI 관련 기술을 집대성해 탄생한 가상인간이다. 실제로 ‘마인즈랩’이 개발한 가상인간은 여수MBC 기상캐스터와 라디오 뉴스진행자, 신한은행의 AI 은행원으로 각각 발탁됐다.

◆ 자체 개발 음성인식 AI기술로 무장한 음성인식 스타트업 ‘리턴제로’

‘리턴제로’가 개발한 AI전화 ‘비토(VITO)’는 국내에서 가장 많이 쓰이는 한국어 음성 인식 엔진이다. 8월 말 기준으로 비토가 처리한 한국어 오디오 처리 시간은 3380만 초로 약 391일 이상에 달하며매일 음성인식 및 화자분리를 처리하고 있는 통화 건수도 평균 6900만건에 육박할 정도로 방대한 음성 데이터를 처리하고 있다.

리턴제로는 통화 음성을 텍스트로 바꿔주는 STT 기술 기반 ‘소머즈 엔진’, 사용자의 목소리를 분석해 화자를 분석하는 ‘모세 엔진’ 등을 자체 개발해 원천 기술을 보유하고 있다. 한국어 자유발화 데이터 레이블링 내재화를 통해 서비스 고도화를 이뤄가는 중이다. 비토는 ARS의 음성까지 검출해내는 화자 분리 기술과 전화 수신 시 기억나지 않는 상대방과의 직전 통화 내용을 보여주는 ‘통화 전 미리보기’ 서비스를 선보이기도 했다.

‘비토’의 STT 서비스는 높은 정확도로 전화 업무가 많은 비스니스맨을 비롯해 다양한 사용자들 일상의 편리함을 가져다주며 B2B 사업 확장에도 나서고 있다.

◆ 답이 없는 질문에도 자연스러운 대화가 가능한 구글AI 언어 모델 ‘람다’와 ‘멈’

음성인식 기술 개발에 앞장서 온 ‘구글’은 지난 5월 미국 캘리포니아 마운틴뷰 본사에서 열린 개발자 회의에서 인공지능 대화 모델 ‘람다’를 소개했다. 람다는 ‘대화 언어 모델(Language Model for Dialogue Applications)’의 약자로, 기능을 고도화해 답이 없는 질문에도 인간과 같은 자연스러운 대화가 가능한 것이 특징이다.

구글은 람다의 기능이 텍스트로 제한되는 점을 개선하기 위해 멀티모달 모델인 MUM(Multitask Unified Model, 멈)도 함께 공개했다. 멈은 75개 이상의 언어로 동시에 학습된 언어모델로, 텍스트 외에도 이미지, 비디오 등 다양한 형태의 정보를 동시에 이해할 수 있는 점이 특징이다.

 

관련기사더보기

%d bloggers like this: