발굴하듯 찾던 공공문서, 한 곳에서 펼쳐본다

“공공 데이터 개방 흐름과 맞물려 웹페이지에 첨부되는 문서가 많아졌다. 문제는 문서 검색이 여전히 2000년대 수준에 머물러 있다는 것이다.” 문서검색 포털 ‘서치퍼트’를 창업한 노범석 대표가 말했다. “지금까지는 원하는 공공문서를 찾으려면 문서를 게시할 법한 웹사이트와 메뉴를 먼저 찾고 문서를 다운 받아 열어 봐야 했다. 서치퍼트는 문서 검색 패러다임을 이같은 탑다운 방식에서 바톰업 방식으로 완전히 뒤집는다.”

전문영역 검색에 중점=서치퍼트가 선보인 문서 검색 소프트웨어 ‘딥서치1.0’은 원하는 키워드를 입력하면 이를 포함한 문서와 페이지를 찾고 원본을 뷰어에서 바로 보여준다. 문서는 바로 저장할 수 있고 이를 게시한 웹페이지, 사이트도 함께 볼 수 있다. 이러한 서비스를 마련한 것은 노 대표가 문서 검색에 관한 2가지 니즈에 주목한 결과다. 물론 첫번째 니즈는 빠른 검색이다. 딥서치는 검색 연산자와 검색 엔진 고도화는 물론이고 검색 뎁스(depth)를 줄이기 위한 UI를 마련했다. 화면 상단에는 법무, 재무회계, 중소벤처를 비롯 16가지 전문 영역별 카테고리와 검색 엔진을, 메인 화면에는 검색 결과를 보여줄 사이트, 문서, 페이지별 목록과 뷰어를 배치했다. 따라서 키워드를 검색하면 해당 키워드가 들어간 원본 내용과 페이지, 문서 목록, 웹사이트까지 빠르게 확인할 수 있다.

두번째 니즈는 ‘이용자가 어디서 뭘 찾아야 할지 몰라도 찾을 수 있어야 한다’는 것. 이는 1차적으로 딥서치가 지향하는 바톰업 검색으로 해소할 수 있다. 어느 사이트로 가야 할지 고민하는 대신 원하는 키워드를 입력하면 바로 문서에 접근할 수 있기 때문이다. 그러나 노 대표는 더 나아가 전문 영역 검색을 위한 네비게이션과 AI사서도 구상했다. “만약 ‘분식 회계’란 키워드를 검색한다면 회계감리 대상, 상장폐지 심사, 주주 소송까지 찾는 것이 일반적이다. 전문 영역에 따라 이같은 검색 순서를 네비게이션 해주거나 알아서 데이터를 찾아주는 기능이 있다면 이용자 지식 지평을 넓히고 편의성은 높일 수 있다.”

전문 검색에 초점을 맞춘 덕에 고객은 법무법인, 상장사, 투자사, 이코노미 리서치 기관, 연구소까지 다양하다. 노 대표는 “서치퍼트 슬로건은 ‘일이 편해진다’이다. 그 일은 공부나 연구일 수도 있고 전문 업무일 수도 있다. 베타 테스터 대상 설문 결과 상급 부처 예산과 동향을 검색하고 싶다는 지자체 공무원부터 교수, 목사까지 다양한 이들이 서비스를 찾았다. 회사 차원 도입을 검토하는 곳도 있어 B2B와 B2C로 나눠 서비스할 계획”이라 말했다.

공공 문서, AI 학습 데이터로 최적=현재 딥서치가 제공하는 데이터는 200여 개 국내 공공기관이 오픈한 공공문서로 사이트마다 봇 엔진이 매일 3번씩 신규 문서를 자체 데이터베이스로 끌어온다. 봇 엔진은 3,000여 개가 작동하고 있는데 이를 배치하기에 앞서 어떤 사이트, 어떤 메뉴에서 문서를 끌어올지는 사람이 직접 기획한다는 설명이다. “사이트 내 어떤 메뉴가 문서를 게시하는 곳인지 먼저 지정한 다음 그에 맞는 봇 엔진을 제작하고 있다. 사람이 직접 기획하고 개발하기 때문에 데이터 누수가 없는 것이 큰 장점”이라 노 대표는 전했다. 

공공문서를 다룬 덕분에 공신력, 저작권 문제도 해소할 수 있다. 뿐만 아니라 노 대표는 이를 기반으로 한 데이터 비즈니스도 꿈꾸고 있다. “공공문서는 오타가 없고 감정이 배제된 문서기 때문에 자연어처리 AI, 딥러닝을 위한 학습 데이터로 유효하다. 기존 한글 데이터셋은 모두 합해도 몇 십만 페이지에 불과해 학교나 연구기관은 데이터 구매에 돈을 써야 했다”며 노 대표는 “텍스트 전처리 정확도나 한국어 자연어처리 기반기술을 높이려는 연구기관이나 서비스 개발사에는 기꺼이 데이터를 무료 제공하겠다”는 뜻을 밝히기도 했다.

글로벌 문서 포털로 성장할 ”=앞서 진행한 베타 테스트를 통해서는 여러 신규 서비스도 구상할 수 있었다. 연구자가 필터만 선택하면 바로 통계 결과를 얻을 수 있는 기능, 내 PC나 카톡에 저장된 문서를 바로 검색할 수 있는 ‘서치 다큐’, 키워드와 사이트를 미리 지정하면 모니터링을 통해 문서 업로드 즉시 이메일, 앱으로 알려주는 ‘닥스피드(Docsfeed)’란 서비스가 대표적이다. 닥스피드는 이미 개발을 시작했으며 서치다큐는 딥서치를 변형한 솔루션이기 때문에 빠르게 개발할 수 있다는 설명이다.

해외 진출에 대한 의지도 밝혔다. “문서 검색은 해외에도 없는 서비스라 우선 미국 정부 산하기관, 행정부 데이터를 한곳에 모은 글로벌 서비스도 해보고 싶다. 신문으로 접하는 미국 정책동향은 행정부 홈페이지에서도 얼마든 찾을 수 있다”며 “원문을 보려면 여러 단계를 거쳐야 하는 것이 불편하고 힘들 뿐”이라고 노 대표는 지적했다. 

따라서 이를 위한 협력사 모색에도 나설 계획이다. “글로벌 유저를 아우르는 문서 검색 포털은 혼자서 만들기는 어려울 수 있기에 부족한 부분은 파트너사 혹은 투자사와 함께 만들고자 한다. 해외 서비스를 통해 전세계 오피니언 리더, 저널리스트에 중요한 정보를 공급하는 채널로 성장하겠다”고 노 대표는 덧붙였다.

%d bloggers like this: