지메일에 녹아든 인공지능 기술은?

구글이 이메일 서비스인 지메일(gmail)의 첫선을 보인 건 지난 2004년부터다. 당시는 베타 버전이었고 이후 2009년 7월에 이르러 정식 버전을 공개하게 됐는데 꾸준한 기능 진화를 통해 13년이 지난 지금은 전세계 10억명 이상이 사용하고 매일 수신/발신하는 메시지의 수가 수억건에 달하는 이메일 서비스로 성장했다.

18일 역삼동 구글코리아 사무실에서 진행된 ‘구글 AI 포럼 제 7강 AI 혁신과 더 똑똑해진 지메일’에서 폴 램버트(Paul Lambert) 구글 프로덕트 매니저가 AI 혁신과 지메일에 대해 소개하고 있다.

실제 구글이 제공하는 있는 이메일 서비스는 지메일과 인박스 두가지가 있다. 지메일은 흔히 우리가 사용하는 이메일이고 인박스의 경우 보다 실험적인 이메일로 이곳에서 처음 기술을 적용하고 지메일로 적용하기 위한 일종의 테스트베드다.

구글은 머신러닝을 적용해 지메일 사용자에게 가장 큰 위협으로 꼽는 다섯가지인 피싱, 멀웨어, 스팸, 바이러스, 계정 탈취를 방지하기 위해 사용된다. 스팸 필터링의 경우 99.9% 스팸 탐지가 가능하다. 사실 스팸 메일이 일반 메일로 인식되는 경우는 사용자를 조금 번거롭게 만들 뿐 사실상 큰 문제는 아니라고 말한다. 문제는 정상 메일이 스팸 메일로 분류되는 경우다. 받은편지함에 도착하는 스팸 메일 비율은 0.1%, 스팸이 아닌 메일이 스팸함에 도착하는 경우는 그보다 더 적은 0.05% 미만이다.

두번째 큰 위협요소는 피싱과 계정 탈취다. 여러 겹의 계층을 만들어 보호하는 방식을 쓰는데 머신러닝을 통해 일단 메일함에 메일이 도착하면 스팸을 걸러내면서 1차 분류를 하고 내용이 조금 이상하다고 생각할 때 경고 메시지나 베너를 보여주면서 사용자에게 알려주거나 스팸 폴더로 돌려보내는 기능이다. 마지막으로 세이프 브라우징(safe browsing) 서비스를 통해 이메일 내용 안에 첨부된 링크가 의심스러울 경우 다시한번 경고 메시지를 띄워주는 기능이다.

스마트 라벨(smart label)은 지메일 사용자 90% 이상이 만족하는 기능이다. 라벨을 정하는 규칙은 머신러닝이 스팸을 분류하는 방식과 상당히 유사하다. 불과 4년 전인 2013년만 하더라도 사용자가 일일이 이메일함을 이동해가며 사용자의 패턴과 규칙을 통해 분류했지만 현재는 신경망 기술을 적용해 메일함 분류를 좀더 쉽고 빠르게 할 수 있게 됐다.

구글은 사용 가능한 이메일 답장을 제시하는 데에 계층적 접근법을 사용한다. 각 모듈은 다양한 시간적 척도의 순서에 맞는 특징을 관찰하고 처리된 출력값을 다음 단계로 넘기는 과정을 되풀이 하며 보다 추상적인 표현과 더 넓은 시간 단위를 다루게 된다. 인간이 말이나 언어를 이해하는 방법과 유사하다.

구글은 자동회신을 위해 장단기기억과 (Long short-term memory, LSTM)과 재귀신경망(Recurrent Neural Network)이 합쳐진 LSTM 신경망 기술을 사용해왔다. 단어 단위로 연산해 문장을 이해하는 기술이다. 하지만 이 방식은 상당한 하드웨어 자원을 요구하기 때문에 구글의 텐서 프로세싱 유닛(TPU)을 이용하더라도 그리 효율적이지 못한 방식이다. 지금 사용하는 방식은 벡터 표현을 추가해 보다 긴 시간 단위에 대응하는 디코딩 방식을 사용중이다. 구글은 LSTM 이외에도 코나(Cona)라는 시스템을 사용하는 데 다양한 언어에 대한 이해도가 높은 솔루션으로 다양한 언어에 대응하기 위한 솔루션이다.

중요메일 알림 서비스는 인박스에서 구현되는 기능 중 하나다. 일일이 모든 이메일을 체크하지 않아도 되도록 중요한 메일을 사용자에게 알려줘 불필요한 메일 동보를 받거나 메일링 리스트를 검토하는 데 소요되는 시간을 줄여준다.

메일의 출처와 기존 메일의 열람여부, 사용자의 관심도 등 다양한 요소를 계산해 일정 기준점을 넘은 메일만을 사용자에게 알려주는 서비스다.

스마트 답장(smart reply) 기능 역시 인박스에서 제공중인 대표적인 기능이다. 예를들어 상사에게 온 메일 내용 중 ‘지금 진행중인 프로젝트가 잘 되어가고 있는가?’ 라는 문구를 인식하고 회신란에 자동으로 ‘네, 그렇습니다’ ‘맞습니다’ ‘진행중입니다’ ‘그렇지 않습니다’ 등 예상 가능한 답변 문구를 자동으로 생성해 사용자가 선택할 수 있다. 사실 이 기능은 지난 2009년 4월1일 만우절에 장난으로 공개했던 기능인데 인공지능의 기술을 빌어 실제로 구현할 수 있게됐다.

물론 사용자가 회신 의사가 없다면 예상 가능한 문구를 발생시키지 않는다. 스팸이나 모르는 사용자, 지원하지 않는 언어 등의 조건의 메일은 자동 회신 기능이 활성화되지 않는다. 그리고 현재는 영어권 언어만 서비스가 된다.

예를들어 이메일 안에 ‘I really want to go got to that concert friday night?’이라는 문구가 있을 경우 답변으로 Me too! / What time? / I’m in / Sounds good! 같은 문구가 추천으로 뜨는데 중요한건 ‘시간(What time)’적인 요소가 답변으로 출력된다는 점이다. 메시지 속에 시간이 없음에도 문장을 이해하고 인공지능이 시간에 대한 물음을 답변에 추가한 것.

사실 데스크탑 환경에서는 그리 유용한 기능이 아니다. 타이핑이 수월하지 않은 모바일 환경이나 빠른 회신이 필요할 때 보다 유용한 기능이다.

인간이라 하지 못했던 일을 구현할 수 있도록 도와주기도 한다. 메일을 보내고 반드시 답장을 받아야 할 때나 혹은 답장을 해야하는 메일에 답장을 하지 않았을 경우에도 사용자가 잊지 않도록 알려주는 기능이다. 물론 이것 역시 사용자에게 스트레스를 제공할 수 있기 때문에 굳이 회신을 하지 않아도 되는 메일을 걸러내는 부분 또한 중점적으로 연구중인 부분이다.

%d bloggers like this: