[Startups in Korea] Developing Voice Technology – CEO of Dialoid, Lee Sang-ho

Recently, Wonki Lim interviewed Lee Sang-ho, CEO of Dialoid. Specializing in voice recognition and synthesis technology, it is a field in which few compete. Lee talked about his journey learning about voice search and how he came to found his own company. Here are some excerpts from the interview.

사용자 삽입 이미지

Doing it “For Fun”

Lee Sang-ho is one of 100 people in Korea who specialize in voice search technology. In 1993 he began his masters in Natural-language Processing at KAIST and began specializing in subjects related to voice search from 1995. On the way to beginning his Ph.D., he chose voice synthesis as his major and after graduating he joined the voice recognition team at LG Electronics. Lee says that at that time LG already had a team dedicated to voice recognition.

Lee had majored in voice synthesis — technology which changes text to voice so that it speaks like a human, and from the time he entered LG he began to study about voice search. By skilfully exploring this area and combined with his previous knowledge, Lee was about to gain a full understanding of everything needed for such a search service. Lee said that the reason for entering the voice synthesis area was because “it seemed like it would fun”.

“As early as 20 years ago, theories regarding voice recognition and voice search were already coming out. It was just that CPUs at the time did not have the speed to process such functions and there wasn’t enough of a vocal database. I thought that if you could use voice systhesis to make a device talk like a person then it would be fun and there would a lot of places to use it.”

However, making a commercialized model with voice recognition wasn’t easy and the market still seemed far off. In 2004 Lee left LG and began working as a professor at Korea Polytechnic University. While he was working as a professor, Naver became the number one portal and Google was always growing incredibly fast. “It’s not too late yet, let’s have a go at the search industry again.” he thought to himself. In 2005, Neowiz’s Chairman Jang Byeong-gyu contacted Lee and proposed starting a company that would develop search technology. His life changed once more and he gained a position on the search team at NHN.

Creating Naver’s Voice Search

In 2012, Lee received orders to create new voice search technology for Naver. Hiring four other people, Lee managed to push out his Naver voice search in a period of just four months. Of course Naver offered voice search before this but the quality was very good and had been largely criticized. However, Lee’s new voice search had received great reviews externally and he himself took pride in what he had made.

“20 years ago, “real time” technology meant the 10X principle. If one spoke for 2 seconds it took 20 seconds to recognize it. It was a problem with the CPU but also with the voice reader. However, speeds gradually increased and as sufficient statistics were collected, searching became possible in almost real-time. The device collects the voice and the recognition and synthesis is performed by the server — making what you see as today’s voice search service.”

Lee made a successful voice search service and with the introduction of Apple’s Siri in 2011, the market opened up. It was a great chance for Lee but he left NHN soon after.

“I felt that NHN was not as interested in voice search as they were previously. But that wasn’t the main reason, there was another reason for leaving.”

Creating a New Business

“I wanted my technology to be used widely by people.  I want to be responsible for it.”

This was the reason why Lee left NHN and started his own company. Of course, after seeing people getting excited over Siri he could now be sure that such a market existed.

The company’s name Dialoid is a combination of Dialogue and Android, meaning a robot that can converse. His dream was to develop smartphone technology which could recognize voice, and read the context of conversations with humans. Lee went all-in on developing this technology but didn’t start with a service right away saying, “Expanding the basic technology is the most important thing.”

Including Lee, the company is made up of five former NHN developers. The company intends to complete the first stage of its development by September and will be launched in an API format. How this technology is used for various services is then up to the companies that utilize it.

In the past, users had to type in commands to computers. If you didn’t memorize the commands then you couldn’t communicate with one. As graphical interfaces came out where users could click on icons , communicating with a computer became easier. Now we have come so far as to have touch interfaces where icons can be selected directly. It’s expected that voice will be the next major user interface after graphical and touch. Dialoid is a rare Korean venture which is focused on creating conversational interface technology.

“With the Korean language we should be able to develop voice recognition technology better than any other company in the world. By expanding our original technology there are many things that can be done. The difficult thing is to make sure the basis is sound. The answer can be found by carefully examining humans. After researching humans, the key is whether a computer can simulate this.”

[#M_View the original article in Korean here.|Hide |

언젠가는 내가 말만 하면 모든 스마트기기가 아니, 전자제품이 척척 움직이고 반응하는 그런 세상이 오지 않을까. 인식만 잘하고 그것을 변환하는 정보처리만 잘 되면 가능할테니. 한 걸음 더 나가 생각만으로 움직이는 그런 IT(정보기술) 세상도 언젠가는 가능하지 않을까.

이런 상상을 하면 한편으론 ‘너무 편리하겠다’ 싶은 생각이 들면서도 ‘기계가 인간을 지배하게 될 지 모른다’는 걱정도 하게 된다. 터미네이터를 비롯해 수많은 공상과학(SF)영화에서 보여졌던 그런 장면들이 오버랩되면서 말이다. 이런 생각을 할 수 있는 것은 가까운 곳에서 관련 서비스들이 마구 나오고 있기 때문. 구글이 안드로이드폰에서 시작했던 음성검색이나 아이폰4S에서 처음 선보였던 시리(Siri)가 대표적이다.

사용자 삽입 이미지

source: http://www.flickr.com/photos/44124366475@N01/6965684863

막연하게 생각해도 앞으로 생활 뿐 아니라 산업 전반에 큰 변화를 가져올 것 같은 이런 기술은 아직까지는 해외 기업들이 주도하고 있다. 그것도 대부분 미국 회사들이다. 오랫동안 축적된 기술력과 서비스에 대한 이해도를 바탕으로 앞서 나가는 이런 외국 업체들과 맞짱을 뜰 만한 한국 기업을 찾기는 쉬운 일이 아니다.

다이알로이드는 이처럼 아주 드물지만 중요한 기술을 개발하는 국내 회사다. 이 회사를 설립한 이상호 대표는 2010년 12월 NHN이 네이버 모바일 앱에서 음성검색 서비스를 출시했을 때 그 서비스를 만든 4명 중 한 명이었고 이들 중 가장 선임자였다. 그는 사업에 잔뼈가 굵은 사람은 아니다. 그런 사람이 오랜 직장 생활 끝에 새로운 도전을 결심했다면, 하지 않고서는 못 배길 정도로 뭔가 아주 큰 계기가 있었거나 자신감이 생겼거나 둘 중 하나일 것이다.

◆‘재밌을 것 같아서’ 시작한 음성 검색

이상호 대표는 국내에서 100명이 채 안될 것으로 추산되는 음성 검색 기술 관련 전문가다. 특이한 전공을 한 셈이다. 동국대학교 전산학과 89학번인 이 대표는 1993년 한국과학기술원(KAIST) 석사과정에 입학하면서 자연어처리를 전공으로 했다. 그가 음성 검색과 관련된 분야를 전문적으로 하게 된 것은 1995년부터. 박사과정에 들어가면서 그는 전공으로 음성합성을 택했다. 졸업후 LG전자를 간 그가 일한 곳은 음성인식팀. LG전자에는 이미 그 때부터 음성인식과 관련된 팀이 있었다고 한다. 음성 합성, 즉 text를 voice로 바꿔 기계가 인간처럼 말 할 수 있게 하는 운율생성 기술을 전공으로 했던 그가 음성 인식을 공부하기 시작한 것도 LG전자에 들어가면서부터다. 공교롭게도 이런 과정을 거치면서 그는 검색의 필수인 자연어처리, 음성 합성, 음성 인식을 모두 터득하게 됐다.

이 대표가 음성 합성 분야에서 박사 과정을 밟기로 한 것에는 아주 거창한 이유가 있는 것은 아닌 듯 하다. “재밌을 것 같아서” 선택했다고 한다.

“벌써 20년 전부터 음성 인식, 음성 검색에 대한 이론적인 틀이 나와 있었습니다. 다만 당시엔 기술적으로 처리할 만큼 중앙처리장치의 속도가 빠르지 못했고 관련 음성 DB(데이터베이스)도 충분하지 못했습니다. 음성 합성을 통해 기계가 사람이 말하는 것처럼 운율을 생성할 수 있다면 재미도 있고, 쓰일 곳도 많지 않을까 하는 생각을 했었죠.”

하지만 그의 생각과 달리 음성 인식을 상업화하는 모델은 쉽게 만들어지지 않았다. 결함도 많았다. 시장은 아직 멀어보였다. 2004년 LG전자를 나온 이상호 대표는 한국산업기술대학에서 교수로 일하기 시작했다. 그가 교수생활을 하던 시절, 국내에서 NHN의 검색 포털 네이버가 다음을 제치고 1위에 올랐고 해외에서는 구글이 급성장하고 있었다. 이런 세상을 보면서 “아직 늦지 않았으니 검색 분야에 다시 도전을 해 볼까”는 생각을 하던 차. 한 사람이 그를 찾아왔다. 장병규 네오위즈 창업자였다.

2005년 장병규 사장은 검색 기술 개발업체 첫눈을 설립하면서 이상호 대표에게 함께 하자고 했다. 첫눈에 합류하면서 그의 인생은 다시 달라졌다. 검색 기술을 개발하는 일을 직접 하고 첫눈에 NHN에 팔리면서 그는 NHN에서 본격적으로 검색 업무를 맡게됐기 때문이다. 하지만 머지않아 그의 전공 분야에서 기회가 다시 찾아왔다.

◆네이버 음성검색을 만들다

NHN에 있던 2010년 7월. 이준호 NHN CTO가 ‘음성검색 기술을 새로 개발하라’는 지시를 내렸다. 이상호 대표를 비롯, 4명이 투입됐다. 4개월여의 기간동안 씨름한 끝에 그해 말 네이버 음성검색이 나왔다. 물론 네이버에서는 그 이전부터 음성검색을 제공하고 있었지만 품질이 좋지 않다는 지적을 많이 받아왔다. 하지만 이상호 대표팀이 만든 음성 검색에 대해선 외부의 평가 뿐 아니라 그도 자부심을 가질 정도로 훌륭했다.

“제 가 석사 1학년때인 1993년 IBM에서 인터넷문서를 통계적 방식으로 돌려 번역을 하는 그런 Frame에 대한 논문이 나왔어요. 그런데 사실 처음에 그걸 봤을 때는 말이 안된다고 생각했죠. 통계만으로 가능할까 싶었던 거에요. 당시에 그만큼 DB가 많지 않았던 탓도 있었죠. 그런데 그 뒤로 20년이 흐른 지금은 아직 완벽하진 않더라도 인터넷에서 쉽게 문서를 번역할 수 있거든요. 당시의 이론적인 틀이 그대로 구현이 된 셈이죠.”

그가 볼 때는 음성 인식, 음성 합성, 음성 검색도 마찬가지다. 결국 결과물은 통계로 결정된다. 통계를 위해선 데이터가 필요하다. 20년 전에는 힘들었지만 이제는 조건이 다 갖춰졌다. 진짜 음성검색을 해 볼 만한 시기가 된 것이다.

“20년 전에는 리얼타임의 10배 원칙이 적용됐었죠. 즉 2초동안 말하면 그것을 인식하는 데 20초가 걸렸던 거에요. CPU 성능때문이기도 하고 단말기의 문제도 있었죠. 그런데 속도가 점점 빨라지고 통계를 돌릴 만한 데이터가 축적되면서 거의 실시간에 가까운 음성 검색이 가능해진 거에요. 단말기에서는 음성을 수집만 하고 실제 음성 인식 및 합성은 서버에서 다 이뤄지면서 오늘날의 음성 검색 서비스가 완성된 겁니다.”

네이버에서 제대로 된 음성검색 서비스를 만든 이상호 대표. 2011년엔 아이폰이 시리를 출시하면서 음성인식과 관련된 서비스 시장이 본격적으로 문을 열었다. 그로서는 본격적으로 실력발휘를 할 기회가 온 것이다. 하지만 얼마 안 돼 회사를 나왔다. 왜 그랬을까.

 “NHN이 예전만큼 음성 검색에 관심을 갖지 않는 것 같다는 생각도 있었습니다. 하지만 그게 중요한 이유는 아니었어요. 더 중요한 이유는 따로 있었습니다.”

◆내가 만든 기술을 모든 사람이 쓰는 것을 보고 싶었다

‘내가 만든 기술이 사람들에게 널리 쓰이고 싶다는 것. 그것을 책임지고 해 보고 싶다는 것’ 이것이 이상호 대표가 NHN을 박차고 나와 창업을 하게 된 가장 중요한 이유였다. 물론 시리가 나오고 사람들이 이에 열광하는 것을 보며 “아 이제 시장이 열렸구나”라는 확신을 갖게 된 것도 중요했다.

다이알로이드(Dialoid)라는 회사 이름은 대화(Dialogue)와 로봇(Android)의 조합으로 만든 말이다. 말 그대로 대화를 하는 로봇이란 뜻. 스마트폰에서의 음성 인식이나 검색 수준을 뛰어넘어 인간과 대화를 나누고 문맥을 파악하고 공감을 하는 그런 기술을 개발하겠다는 꿈이 서려 있다. 그래서 이 회사는 기술 개발에 올인한다. 구체적인 서비스를 직접 만들지는 않는다. “원천 기술을 확보하는 게 제일 급합니다.”

멤버는 이상호 대표를 비롯해 4명의 NHN 출신 개발자 등 총 5명으로 구성됐다. 9월에 1차적으로 기술을 개발해 완성하는 게 목표다. 이 기술은 API형태로 공개된다. 이 기술을 이용해 다양한 서비스에 활용하는 것은 다른 업체들의 몫이다.

과거 PC 시대에는 명령어를 입력해야 했다. 명령어를 외워 입력하지 않으면 컴퓨터와 대화를 나눌 수 없었다. 대화를 나눌수 없으면 아무것도 할 수가 없다. 아이콘 방식으로 클릭하면 되는 그래픽유저인터페이스가 나오면서 컴퓨터와의 대화는 좀 더 쉬워졌다. 터치형은 아이콘을 기반으로 하되 추가적인 부가물이 없이 바로 쓸 수 있게 만들었다는 점에서 지금 대세가 된 방식이다. 시각과 촉각 다음으로는 인간의 대화에서 가장 중요하고 기본이 되는 음성기반의 유저인터페이스가 이을 것으로 예상된다. 다이알로이드는 바로 이 대화형인터페이스 기술을 개발하고 있는 한국의 아주 드문 벤처기업이다.

“최소한 한국어에 있어서만큼은 세계 어떤 회사가 만든 것보다 우수한 음성 인식 기술을 만들어야죠. 원천 기술만 확보하면 할 수 있는 것은 많습니다. 다만 기본에 충실한 게 어려운 거죠. 인간을 유심히 탐구하면 답이 나옵니다. 결국 인간에 대해 깊이 탐구를 해 이를 컴퓨터에 가장 유사하게 시뮬레이션할 수 있느냐가 관건입니다.”

글: 임원기
출처: http://limwonki.com/519 _M#]

%d bloggers like this: