오픈 API 서비스로 산업 활성화 이끈 스타트업

AI 기업들이 자체 개발한 최신 AI 기술을 누구나 활용할 수 있도록 오픈 API(응용프로그램 인터페이스)로 공개해 산업 전반의 활성화 및 서비스 고도화를 이끌고 있다.

방대한 양의 한국어 음성 데이터를 기반으로 수준 높은 AI 음성인식 문자변환 기술 제공하는 리턴제로의 ’비토 스피치’부터 AI가 혐오 표현을 자동 탐지해 윤리성을 판별해주는 튜닙의 API, 기업 및 브랜드가 원하는 가상 인간(버추얼 휴먼) 제작을 손쉽게 도와주는 플립션의 서비스, 입력한 텍스트에 맞는 이미지를 출력해주는 카카오브레인의 AI 모델 ‘알큐-트랜스포머’까지 자사의 독보적인 인공지능 기술을 오픈 API 형태로 제공 중인 기업들을 소개한다.

리턴제로, 자체 개발한 음성인식 문자변환 기술을 오픈 API로 공개

국내 대표 인공지능 스타트업 리턴제로는 자사의 음성인식 문자변환(STT) 기술을 오픈 API로 제공해 국내 AI 음성인식 산업 활성화에 기여하고 있다.

리턴제로는 AI 전화 앱 ‘비토(VITO)’를 운영하며 확보한 방대한 양의 음성 데이터를 기반으로 수준 높은 음성인식 모델을 구축하고, 누구나 음성인식 문자변환 기술을 활용할 수 있도록 ‘비토 스피치(VITO Speech)’ 서비스를 공개했다. 비토의 개발자 웹사이트(VITO Developer)를 통해 공개된 비토 스피치는 통화 음성을 텍스트로 바꿔주는 STT(Speech To Text) 기술 기반의 ‘소머즈(Sommers)엔진’이 적용됐으며, 월 1000시간까지 무료로 사용이 가능하다.

비토의 핵심 기술인 소머즈 엔진은 한국어 특성상 정확히 인식하기 어려운 구어체와 자유 발화 등에 특화되어 소음에 노출된 통화 환경에서도 빠르고 정확한 텍스트 변환 기술을 보여준다. 비토 스피치는 별도의 학습 없이도 높은 수준의 정확도를 보이며, 자동음성안내(ARS) 인식, 욕설 및 간투어 필터링 등 다양한 기능이 제공된다. 월 1000시간 분량의 음성 텍스트 변환 기능이 무료로 제공되는 만큼, AI 음성인식 서비스에 관심이 높은 개발자, 연구원 등은 물론 STT 기술 도입을 원하는 기업들, 특히 CS센터를 보유하고 있거나 영업 인력들이 많은 기업들 사이에서 유용하게 쓸 수 있다.

리턴제로는 그동안 비토의 높은 음성인식 정확도를 경험한 기업 고객들의 제휴 요청이 잇따르고 있어 연내, 기업 고객 전용 유료 상품도 출시할 계획이라고 밝혔다.

튜닙, AI가 혐오 표현 자동 탐지해 윤리성 판별해주는 API 서비스 공개

자연어 처리 기술을 개발하는 인공지능 스타트업 ‘튜닙’은 최근 윤리성 판별, 비식별화 등 11가지 API 서비스를 공개했다.

튜닙이 공개한 서비스는 자체 개발한 자연어처리(NLP) 엔진 기반의 한국어·영어 API 서비스다. 별도의 추가 코딩이나 배경지식 없이도 사용자가 원하는 단어나 문장을 입력하면 AI가 자동으로 인식해 적합한 결과를 제공한다.

튜닙의 API 중 가장 주목받는 것은 ‘윤리성 판별(Safety Check)’ API로, 사용자가 텍스트를 입력하면 튜닙의 딥러닝 모델이 문맥을 분석해 혐오 표현을 자동 탐지한다. 모욕, 욕설, 폭력, 위협, 범죄 조장 등 11가지 항목으로 분류된 혐오 표현의 심각성을 주의, 명백, 심각 등의 3단계로 구분하고 순화된 표현으로 대체하여 결과를 보여준다. 온라인 환경에서 심각성이 대두되고 있는 AI 윤리 및 인터넷 혐오 문제를 해결하는 데 다양하게 활용 가능하다.

이 외에 ▲텍스트 분석, ▲이미지 분석, ▲영상 분석, ▲방언 번역, ▲어린아이 목소리 합성, ▲감정 분류, ▲정치 성향 예측, ▲N행시, ▲단어 그래프 등 다양한 서비스에 적용 가능한 튜닙의 API 서비스는 공식 홈페이지를 통해 누구나 사용해볼 수 있다.

◆ 플립션, 기업 및 브랜드의 버추얼 휴먼 제작 돕는 AI 소프트웨어 솔루션 제공

버추얼 휴먼 전문 AI 기업 ‘플립션’은 ‘B2B AI 버추얼 휴먼 소프트웨어 서비스’를 제공 중이다. API 형태로 공개된 해당 서비스를 이용하면, 기업이나 브랜드에서 원하는 이미지의 버추얼 휴먼을 직접 개발할 수 있다.

플립션은 기존 페이스 스왑(Face Swap)’ 기술이 지닌 AI 학습을 위한 장시간 소요 및 자연스러운 변환을 위해 대량의 데이터가 필요한 점 등의 한계를 보완해 AI 모델을 자체적으로 개발했다. 1장의 사진만으로도 원하는 가상 얼굴로 변환할 수 있는 기술력을 갖췄으며, 단시간에 페이스 스왑이 가능할 뿐 아니라 얼굴 정면, 측면 및 상하단까지 자연스러운 합성이 가능한 것이 특징이다.

지난 8월, 시드 투자를 유치한 플립션은 버추얼 휴먼이 범용적으로 활용될 수 있게 가상 얼굴 합성 기술의 고도화와 버추얼 휴먼 제작 소프트웨어의 배포를 위한 역량 강화에 나선다는 계획이다.

 카카오브레인, 입력한 텍스트에 맞는 이미지 출력해주는 ‘알큐-트랜스포머’ 오픈소스로 공개

카카오의 AI 자회사 카카오브레인은 이미지 생성 AI 모델인 ‘알큐-트랜스포머(RQ-Transformer)’를 오픈소스 커뮤니티 ‘깃허브(GitHub)’에 공개 중이다.

텍스트를 입력하면 그에 맞는 이미지를 출력해주는 알큐-트랜스포머는 39억 개의 매개변수(파라미터)로 구성됐으며, 3000만 쌍의 텍스트-이미지를 학습한 ‘텍스트 투 이미지’ AI 모델이다. 알큐-트랜스포머는 민달리의 업그레이드 버전으로, 지난해 12월 공개했던 초거대 AI 멀티모달인 민달리의 경우 미국의 인공지능 개발 기업 ‘오픈AI’가 공개한 ‘달리(DALL-E)’를 재현하는 것에 가까웠던 것에 반해 알큐-트랜스포머의 경우 카카오브레인 만의 독자적인 기술로 개발됐다.

알큐-트랜스포머는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대된다. 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 알큐-트랜스포머는 기존 기술 대비 이미지 압축으로 인한 손실이 적으며 높은 품질의 이미지를 저해상도의 코드맵으로 표현해준다는 것이 특장점이다. 이로써 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도 및 이미지 품질을 대폭 향상시켰다.

 

관련기사더보기

%d bloggers like this: