카카오 형태소 분석기, 오픈소스로 공개

카카오가 AI 기술을 적용한 형태소 분석 기술 카이(khaiii : Kakao Hangul Analyzer III)를 오픈소스로 공개한다고 밝혔다. 카카오 측에 따르면 딥러닝 기술 기반 형태소 분석기를 오픈소스로 제공하는 건 국내에서 처음이라는 설명이다.

카이를 이용하면 한국어 연구와 챗봇, 자연어 처리 응용 기술 개발 등 한국어를 활용한 다양한 분야에서 형태소 분석을 위한 비용과 시간을 줄일 수 있다. 형태소는 자연어 처리 응용 서비스 기반 기술로 이용되며 정보 검색과 기계번역, 스마트 스피커와 챗봇 등 서비스에서 쓸 수 있다.

카이는 딥러닝을 통해 학습 데이터를 활용해 형태소를 분석하는 모델이다. CNN 기술로 음절 기반 형태소를 분석하며 국립국어원이 배포한 데이터인 세종 코퍼스를 기반으로 데이터 오류를 수정한다. 여기에 카카오가 자체 구축한 데이터를 더해 85만 문장, 13만 어절 데이터를 학습해 정확도를 높였다. 딥러닝 과정에는 C++ 언어를 적용, 보통 딥러닝에 쓰이는 GPU 없이 빠른 분석 속도를 구현했다.

김응균 카카오 자연어처리파트장은 “한국어를 연구하는 분께 도움이 되고자 형태소 분석기를 공개하게 됐다”면서 “앞으로도 다양한 분야에서 딥러닝 기반 기술 연구를 진행하고 공유해나갈 예정”이라고 밝혔다.

이번에 공개한 카이는 깃허브에서 확인할 수 있으며 누구나 무료로 이용할 수 있다.



%d bloggers like this: