인공지능 데이터 및 솔루션 전문 기업 플리토는 AI 모델의 다국어 인식률 향상을 위해 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다. 이번 프로젝트는 음성인식(STT) 모델에서 상대적으로 낮은 인식률을 보이는 아랍어의 성능 개선을 목표로 기획됐다. 아랍어는 표준어인 MSA 외에도 30개 이상의 방언이 존재하며, 일상 대화에서는 표준어와 방언을 혼용하는 코드 스위칭 현상이 빈번해 AI 학습 데이터 구축 난이도가 높은 언어로 평가된다. 플리토는 자사 모바일 애플리케이션에 탑재된 음성 데이터 수집 기능 ‘아케이드’를 활용해 아랍어 음성 데이터 수집 이벤트를 운영하고 있다. 참여자는 제시된 문장을 읽고 음성을 녹음하면, AI 시스템이 발화 데이터를 분석해 방언 유형을 판별하는 방식이다. 방언 구분이 불확실한 경우 추가 문장을 제시해 재참여를 유도함으로써 데이터 정확도를 높인다. 회사는 글로벌 빅테크 기업을 중심으로 다국어 음성 데이터 수요가 지속적으로 증가함에 따라, 실제 프로젝트 요청뿐 아니라 잠재 수요에 선제적으로 대응하기 위해 이번 프로젝트를 추진했다고 설명했다. 플리토는 이번 데이터 수집을 통해 발화자의 억양, 발음 패턴, 어휘 선택 등 언어적 다양성이 반영된 학습용 데이터 구축이 가능할 것으로 보고 있다. 이를 바탕으로 언어 자원 편차에 따른 AI 학습 편향을 완화하고, 실제 사용 환경에서도 높은 인식률을 구현할 수 있는 데이터셋으로 고도화할 계획이다. 이정수 플리토 대표는 “아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어지만 AI 학습용 데이터는 상대적으로 부족한 저자원 언어”라며 “이번 프로젝트를 통해 아랍어의 실제 사용 맥락을 충실히 반영한 데이터 구축으로 글로벌 AI 모델의 아랍어 인식 품질 향상에 기여하겠다”고 말했다. 관련 기사 더 보기 https://www.venturesquare.net/1036450/