인공지능(AI) 발전에 따라 인간의 언어를 이해하고 생성하도록 훈련된 ‘대규모 언어 모델(LLM)’의 등장은 자연어 처리 기술(NLP)의 급속한 발전을 이끌고 있다. 챗GPT와 같은 생성형 AI가 맥락을 파악해 보다 자연스러운 대화를 나눌 수 있게 된 것도 모두 LLM의 진보 덕분이다. LLM은 데이터를 다루는 산업 전반에서 활용되며 AI 기술의 급진적인 성장을 뒷받침하는 핵심 역할을 하고 있기 때문이다.
최근 LLM은 통신, 게임, 보안, 법률 등 특정 도메인에 특화된 형태로 정교하게 발전하고 있다. 범용 LLM의 경우 방대한 데이터를 학습했음에도 심층적인 전문 지식이 필요한 영역에서 한계를 보이고 있고 정보 보호의 취약성과 ‘할루시네이션(환각 현상)’ 등의 문제점도 내재하고 있기 때문이다. 이에 기업들은 각 산업별 특수성을 반영한 전문 지식과 데이터를 학습시켜 보다 정밀한 자체 언어 모델을 구축하고 있다. 산업과 비즈니스에 최적화된 ‘도메인 특화 LLM’을 통해 AI 기술을 고도화하고 있는 기업의 사례를 살펴본다.

◆ 다양한 산업군의 엔터프라이즈 AI 개발 경험으로 할루시네이션 문제 최소화한, 크라우드웍스
AI 테크 기업 크라우드웍스는 AI 학습에 필요한 데이터를 전처리하는 ‘데이터 엔진’, 기업별 맞춤형 대규모 언어모델(LLM) 구축 서비스를 제공하는 ‘AI 솔루션’ 등을 제공하고 있다. 데이터 엔진으로는 이미지, 영상 등 다양한 데이터를 AI가 인식할 수 있는 형태로 변환하는 데이터 라벨링 플랫폼을 운영 중이다. 일반인이 라벨링 작업에 참여해 수익을 공유하는 방식이며 작업한 데이터는 금융권, 검색 포털 등 고객사에 판매한다. 등록된 라벨러 수는 국내 최대 규모인 62만명이다.
AI 솔루션으로는 지난 2023년 9월 파인튜닝 솔루션 LLM Platform을 출시했다. 네이버 하이퍼클로바X의 공식 파트너로 선정됐으며, 올해 상반기에는 비즈니스 특화 sLM ‘웍스원(WorksOne)’을 출시했다. AI 데이터 구축에 필요한 인력을 육성하는 ‘크라우드 아카데미’도 운영하고 있다. 크라우드 아카데미는 라벨러 육성을 위한 교육 콘텐츠를 제공하는 사업으로 2021년 ‘국민내일배움카드’ 과정, 2023년 ‘플랫폼 종사자 특화훈련’ 사업에 선정됐다.
특히 크라우드웍스는 그간 다양한 산업군의 엔터프라이즈 AI 개발 경험을 토대로 LLM의 고질적인 할루시네이션 문제를 최소화하고 결과 데이터, 성능 검증을 통해 답변의 완성도와 정확성을 향상시켜 고객 만족도를 높여왔다.
◆ 다크웹 특화 언어 모델로 특수 데이터 처리 역량 입증, S2W
AI 및 보안 전문 데이터 인텔리전스 기업 에스투더블유(이하 S2W)는 마약 유통, 랜섬웨어, 해킹 등 각종 사이버 범죄의 온상으로 지목되는 ‘다크웹(Dark Web)’상의 난해한 언어와 불법적인 콘텐츠를 분석할 수 있도록, 세계 최초의 다크웹 전용 AI 언어 모델 ‘다크버트(DarkBERT)’를 개발하여 주목받고 있다. 다크웹에서 수집된 약 3억 개 페이지의 방대한 텍스트 데이터로 훈련된 이 모델은 다크웹 페이지 주제 분류와 랜섬웨어 유출 사이트 탐지 등의 분석 작업에서 우수한 성능을 보이며 사이버 범죄 수사의 효율성을 강화하고 있다. 또한 다크버트를 적용한 다크웹 전용 챗봇 ‘다크챗(DarkCHAT)’을 인도네시아 정부기관에 공급된 자사의 AI 기반 빅데이터 분석 플랫폼 ‘자비스(XARVIS GLOBAL)’에 탑재해, 사용자가 필요로 하는 사이버 범죄 관련 정보를 즉시 확인할 수 있도록 지원하고 있다.
다크버트에 이어 공개한 사이버 보안 특화 AI 언어 모델 ‘사이버튠(CyBERTuned)’은 비정형 사이버 보안 데이터, 특히 URL과 SHA 해시(Hash) 등의 비언어적 요소를 효과적으로 학습할 수 있도록 설계되어 사이버 위협 인텔리전스(CTI) 작업에서 차별화된 기능을 보여주고 있다. 이에 그치지 않고, 최근에는 사이버 안보 특화 언어 모델들을 개발하며 축적해온 NLP 기술 노하우 및 특수 데이터 처리 역량을 제조, 유통, 금융, 공공 등 다양한 산업군으로 확대 적용해 나가고 있다.
◆ 법률 특화 LLM 자체 개발해 법률 자문부터 계약 검토 효율성 제고, BHSN
법률 시장에 특화된 LLM으로 법무 효율성을 극대화하는 AI 플랫폼도 존재한다. 리걸 AI 솔루션 기업 BHSN이 개발한 ‘앨리비(Allibee)’는 법률 특화 생성형 AI 기반 서비스형 소프트웨어(SaaS) 플랫폼으로, 맥락을 이해하고 단어의 의미를 파악한 후 적절한 답변을 제공함으로써 법률 계약서 관련 업무에 최적화된 기능을 제공한다.
앨리비는 BHSN이 자체 개발한 법률 특화 AI 언어 모델 ’BHSN Legal-LLM’을 기반으로 구축됐다. 계약, 법령, 판례, 정책 등 변호사와 AI 엔지니어가 협업해 선정하고 생성한 대량의 법률 관련 고품질 데이터를 집중적으로 학습했다. 정확도 높은 정보를 바탕으로 법률 영역에 적합한 세부 기능을 구현했으며 기업, 공공기관, 로펌 등 다양한 고객사의 데이터를 토대로 내부 정책에 맞춰 계약서 내용을 수정하는 등의 서비스도 제공하고 있다. 현재 앨리비는 이와 같은 법률 도메인 특화 기능을 바탕으로 업무 생산성을 향상시키는 올인원 AI 비즈니스 솔루션으로 활용되고 있다.
◆ 통신사 맞춤 언어 모델 ‘텔코LLM’으로 내부 비즈니스 혁신, SKT
SK텔레콤(이하 SKT)의 ‘텔코 LLM(Telco LLM)’은 5G 요금제, T멤버십, 공시지원금과 같은 국내 통신 전문 용어와 내부 AI 윤리 지침 등을 학습한 통신 특화 LLM이다. 방대한 한국어 통신 데이터를 수집하고 선별해 자사의 ‘에이닷엑스(A.X)’와 오픈AI의 ‘GPT’, 앤트로픽의 ‘클로드’ 등에 학습시켜 멀티엔진 기반 LLM을 구축했다. 통신사 전용으로 세밀하게 미세조정(Fine-tuning)하는 과정을 거쳐 통신 서비스, 멤버십 혜택, 고객 상담 패턴 등 범용 LLM 대비 세분화된 통신 영역의 데이터 처리가 가능하도록 설계됐기 때문에 수준 높은 작업을 수행할 수 있다.
SKT는 멀티엔진 기반인 텔코LLM을 통해 서비스별로 최적화된 LLM을 선택 및 적용, 다양한 통신 업무 상황에 적합한 기능을 구현하며 내부 운영 효율성을 강화하고 있다. 최근에는 국내 메이저 고객센터 중 최초로 LLM을 적용한 ‘AI 상담 업무 지원 시스템’을 오픈, 상담사가 자연어로 질문을 입력해 필요한 정보를 빠르게 검색 및 정리할 수 있도록 지원하고 있다. 또한 텍스트뿐만 아니라 다양한 이미지를 이해할 수 있는 대규모 멀티 모달 모델(Large Multimodal Model, LMM)을 활용해, 고객이 문자와 이메일 등으로 발송한 서류를 자동 처리하는 ‘AI 서류 자동 처리 시스템’도 구축했다. SKT는 향후 텔코 LLM을 유통망 관리와 네트워크 인프라 운용 외 다양한 업무 상황에도 확대 적용해 나갈 예정이다.
◆ 게임·엔터 도메인 넘어 창작 AI의 새 패러다임 제시, 엔씨소프트 ‘바르코 LLM’
‘바르코 LLM(VARCO LLM)’은 엔씨소프트가 국내 게임사 최초로 자체 개발한 AI 언어 모델로, 게임 개발에 특화된 고품질 콘텐츠 제작을 지원하며 게임 및 엔터테인먼트 분야의 혁신을 선도하고 있다. 바르코는 텍스트나 시나리오 등 게임 내 콘텐츠 개발에 중점을 둔 데이터를 학습해 생동감 있는 기획, 운영, 아트 등 콘텐츠 개발 전반에서 높은 효율성을 제공한다. 특히 바르코 LLM 기반의 ‘바르코 스튜디오(VARCO Studio)’는 게임 제작에 특화된 AI 플랫폼 서비스로, 엔씨소프트의 지식재산권(IP)에 특화된 웹 기반 이미지 생성툴 ‘바르코 아트’, 텍스트 생성·관리툴 ‘바르코 텍스트’, AI NPC 및 챗봇 제작을 위한 ‘바르코 아바타’ 등 주요 AI 기능을 통해 게임 개발 전 과정을 지원하며 고품질 콘텐츠 제작에 도움을 준다.
바르코 LLM은 게임 콘텐츠 생성에 특화된 언어 모델이지만 차량용 플랫폼, 교육 등의 분야와도 도메인 특화 모델 개발을 위한 업무협약을 체결하는 등 다양한 산업에 적용되고 있다. 엔씨소프트는 바르코가 기존의 범용 창작 AI와 차별화된 창작성을 제공할 것으로 전망하며, 차세대 버전인 ‘바르코 LLM 2.0’, ‘라마 바르코LLM(Llama-VARCO LLM)’ 등 향상된 성능의 튜닝 언어 모델을 지속적으로 개발하고 공개해왔다. 향후 바르코를 개발한 AI 연구개발 조직 ‘NC 리서치’를 자회사로 분사해 AI 전문 기업을 신설하고 관련 기술을 고도화 한다는 계획이다.
- 관련 기사 더 보기
Evolution of AI Language Models: Companies Embark on Industry-Specific Customized Technologies
With the advancement of artificial intelligence (AI), the emergence of "large-scale language models (LLMs)" trained to understand and generate human language is driving rapid advancements in natural language processing (NLP) technology. Generative AI, like ChatGPT, is also able to understand context and engage in more natural conversations thanks to advances in LLMs. LLMs are utilized across data-processing industries and are playing a key role in supporting the rapid growth of AI technology.
Recently, LLMs have been evolving into sophisticated, specialized forms for specific domains such as communications, gaming, security, and law. General-purpose LLMs, despite training on vast amounts of data, have limitations in areas requiring in-depth expertise. They also face inherent issues such as information security vulnerabilities and hallucinations. Therefore, companies are building more precise, proprietary language models by training specialized knowledge and data reflecting the unique characteristics of each industry. Let's examine examples of companies advancing AI technologies through "domain-specific LLMs" optimized for their industries and businesses.

Crowdworks minimizes hallucination issues with experience developing enterprise AI across various industries.
AI tech company Crowdworks offers a "data engine" that preprocesses data required for AI learning and an " AI solution" that provides customized large-scale language model ( LLM ) construction services for each company. Through its data engine, Crowdworks operates a data labeling platform that converts various data, such as images and videos, into formats recognizable by AI . The platform allows individuals to participate in labeling tasks and share in the profits, selling the resulting data to clients such as financial institutions and search portals. Crowdworks boasts 620,000 registered labelers, the largest number in Korea.
As for AI solutions, the fine-tuning solution LLM Platform was launched in September 2023. It was selected as an official partner of Naver HyperClova X, and in the first half of this year, it launched the business-specific SLM ' WorksOne '. It also operates 'Crowd Academy', which trains the personnel needed to build AI data. Crowd Academy is a business that provides educational content for training labelers, and was selected for the 'National Tomorrow Learning Card' course in 2021 and the 'Platform Worker Specialized Training' project in 2023.
In particular, Crowdworks has been minimizing the chronic hallucination problem of LLM based on its experience in developing enterprise AI in various industries, and has been increasing customer satisfaction by improving the completeness and accuracy of answers through result data and performance verification.
◆ Demonstrating specialized data processing capabilities with a dark web-specific language model, S2W
S2W (hereafter referred to as S2W), an AI and security specialized data intelligence company, is attracting attention by developing the world's first AI language model specifically for the dark web, "DarkBERT," which can analyze difficult language and illegal content on the "Dark Web," which is pointed out as a hotbed of various cybercrimes such as drug distribution, ransomware, and hacking. Trained on a massive amount of text data of approximately 300 million pages collected from the dark web, the model demonstrates excellent performance in analysis tasks such as dark web page topic classification and ransomware leak site detection, thereby enhancing the efficiency of cybercrime investigations. In addition, S2W has installed "DarkCHAT," a dark web-specific chatbot using DarkBERT, into its AI-based big data analysis platform "XARVIS GLOBAL," which is supplied to an Indonesian government agency, allowing users to immediately check the cybercrime-related information they need.
Following Darkbert, the newly released cybersecurity-specific AI language model, CyberTuned, is designed to effectively learn unstructured cybersecurity data, particularly non-verbal elements such as URLs and SHA hashes, demonstrating differentiated capabilities in cyber threat intelligence (CTI) tasks. Furthermore, the company is expanding the NLP technology know-how and specialized data processing capabilities it has accumulated through the development of cybersecurity-specific language models to diverse industries, including manufacturing, distribution, finance, and the public sector.
◆ BHSN develops its own specialized LLM program to improve efficiency from legal advice to contract review.
There are also AI platforms that maximize legal efficiency through LLMs specialized in the legal market. Developed by legal AI solutions company BHSN, Allibee is a legal-specific, generative AI-based Software-as-a-Service (SaaS) platform. It provides optimized functionality for legal contract-related tasks by understanding context, grasping the meaning of words, and then providing appropriate responses.
Allybee is built on BHSN's proprietary legal AI language model, "BHSN Legal-LLM." It intensively trained on a large volume of high-quality legal data, including contracts, statutes, precedents, and policies, selected and generated through collaboration between lawyers and AI engineers. Based on this highly accurate information, Allybee implemented detailed functions tailored to the legal field. It also provides services such as modifying contracts to align with internal policies, drawing on data from diverse clients, including corporations, public institutions, and law firms. Currently, Allybee is being utilized as an all-in-one AI business solution that enhances work productivity based on these specialized legal domain features.
SKT innovates internal business with 'Telco LLM', a customized language model for telecommunication companies.
SK Telecom's (hereinafter SKT) 'Telco LLM' is a telecommunications-specific LLM that has studied domestic telecommunications terminology such as 5G rate plans, T membership, and public subsidies, as well as internal AI ethics guidelines. It collected and selected a vast amount of Korean telecommunications data and trained it on its own 'AX', OpenAI's 'GPT', and Antropic's 'Claude' to build a multi-engine-based LLM. It has gone through a detailed fine-tuning process exclusively for telecommunications companies, and is designed to process data in specialized telecommunications areas such as telecommunications services, membership benefits, and customer consultation patterns, enabling it to perform high-level tasks compared to general-purpose LLMs.
SKT is enhancing internal operational efficiency by selecting and applying optimized LLMs for each service through its multi-engine Telco LLM, implementing functions suited to various telecommunications work situations, and bolstering internal operational efficiency. Recently, it launched the "AI Consultation Support System," the first LLM-based system among major domestic customer centers, allowing counselors to quickly search and organize necessary information by entering questions in natural language. Furthermore, it has also built an "AI Document Automated Processing System," which automatically processes documents sent by customers via text and email, utilizing a Large Multimodal Model (LMM) that can understand not only text but also various images. SKT plans to expand the application of Telco LLM to various business situations, beyond distribution network management and network infrastructure operation.
NCsoft's "Barco LLM" presents a new paradigm for creative AI beyond the gaming and entertainment domains.
'VARCO LLM' is NCSOFT's first self-developed AI language model, leading innovation in the game and entertainment industry by supporting the creation of high-quality content specialized in game development. VARCO learns data focused on the development of in-game content such as text and scenarios, providing high efficiency in all aspects of content development such as vivid planning, operation, and art. In particular, 'VARCO Studio' based on VARCO LLM is an AI platform service specialized in game production. It supports the entire game development process through major AI functions such as 'VARCO Art', a web-based image creation tool specialized in NCSOFT's intellectual property (IP), 'VARCO Text', a text creation and management tool, and 'VARCO Avatar' for creating AI NPCs and chatbots, and helps create high-quality content.
Although Varco LLM is a language model specialized for game content creation, it is being applied to various industries, such as automotive platforms and education, by signing business agreements for the development of domain-specific models. NCsoft expects Varco to provide creativity differentiated from existing general-purpose creative AI, and has continuously developed and released tuned language models with improved performance, such as the next-generation version, 'Varco LLM 2.0' and 'Llama-VARCO LLM'. In the future, the plan is to spin off 'NC Research', the AI research and development organization that developed Varco, as a subsidiary to establish a specialized AI company and advance related technologies.
- See more related articles
人工知能言語モデルの進化、産業別カスタマイズ技術に乗り出した企業
人工知能(AI)の発展によって人間の言語を理解し生成するように訓練された「大規模言語モデル(LLM)」の登場は、自然言語処理技術(NLP)の急速な発展を導いている。チャットGPTのような生成型AIがコンテキストを把握し、より自然な会話を分けることができるようになったのもすべてLLMの進歩のおかげだ。 LLMはデータを扱う産業全体で活用され、AI技術の急進的な成長を支える重要な役割を果たしているからだ。
最近、LLMは通信、ゲーム、セキュリティ、法律など特定のドメインに特化した形で精巧に発展している。汎用LLMの場合、膨大なデータを学習したにもかかわらず、深い専門知識が必要な領域で限界を見せており、情報保護の脆弱性や「ハルシネーション(幻覚現象)」などの問題点も内在しているからだ。これに企業は、各産業別特殊性を反映した専門知識とデータを学習させ、より精密な独自言語モデルを構築している。産業とビジネスに最適化された「ドメイン特化LLM」を通じてAI技術を高度化している企業の事例を見てみる。

◆様々な産業群のエンタープライズAI開発経験でハルシネーション問題最小化した、クラウドワークス
AIテック企業クラウドワークスは、 AI学習に必要なデータを前処理する「データエンジン」、企業別にカスタマイズされた大規模言語モデル( LLM )構築サービスを提供する「 AIソリューション」などを提供している。データエンジンとしては、画像、映像など多様なデータをAIが認識できる形に変換するデータラベリングプラットフォームを運営している。一般人がラベリング作業に参加して収益を共有する方式であり、作業したデータは金融圏、検索ポータルなど顧客会社に販売する。登録されたラベラー数は国内最大規模の62万人だ。
AIソリューションとしては、2023年9月にファインチューニングソリューションLLM Platformを発売した。ネイバーハイパークローバXの公式パートナーとして選ばれ、今年上半期にはビジネス特化sLM 「ワークスワン」を発売した。 AIデータ構築に必要な人材を育成する「クラウドアカデミー」も運営している。クラウドアカデミーはラベラー育成のための教育コンテンツを提供する事業で、2021年「国民明日学習カード」の過程、2023年「プラットフォーム従事者特化訓練」事業に選ばれた。
特にクラウドワークスはこれまで様々な産業群のエンタープライズAI開発経験に基づいてLLMの高品質なハルシネーション問題を最小化し、結果データ、性能検証を通じて回答の完成度と精度を向上させ、顧客満足度を高めてきた。
◆ダークウェブ特化言語モデルで特殊データ処理能力を証明、 S2W
AIおよびセキュリティ専門データインテリジェンス企業S2W(以下S2W)は、薬物流通、ランサムウェア、ハッキングなど各種サイバー犯罪の温床として挙げられる「ダークウェブ(Dark Web)」上の難解な言語と違法なコンテンツを分析できるよう、世界初のダークウェブ専用のAI言語モデル「DarkTurt」。ダークウェブで収集された約3億ページの膨大なテキストデータで訓練されたこのモデルは、ダークウェブページのトピック分類やランサムウェア流出サイトの検出などの分析作業で優れた性能を示し、サイバー犯罪捜査の効率性を強化している。また、ダークバートを適用したダークウェブ専用チャットボット「ダークチャット(DarkCHAT)」をインドネシア政府機関に供給された自社のAIベースのビッグデータ分析プラットフォーム「ザビス(XARVIS GLOBAL)」に搭載し、ユーザーが必要とするサイバー犯罪関連情報を即座に確認できるよう支援している。
ダークバートに続いて公開したサイバーセキュリティ特化AI言語モデル「サイバーチューン(CyBERTuned)」は、非定型サイバーセキュリティデータ、特にURLやSHAハッシュ(Hash)などの非言語的要素を効果的に学習できるように設計され、サイバー脅威インテリジェンス(CTI)作業で差別化された機能を見せている。これにとどまらず、最近ではサイバー安全保障特化言語モデルを開発して蓄積してきたNLP技術ノウハウおよび特殊データ処理能力を製造、流通、金融、公共など多様な産業群に拡大適用しています。
◆法律特化LLM独自開発し、法律諮問から契約検討効率性向上、 BHSN
法律市場に特化したLLMで法務効率性を最大化するAIプラットフォームも存在する。リーガルAIソリューション企業BHSNが開発した「アリビー(Allibee)」は、法律特化生成型AIベースのサービス型ソフトウェア(SaaS)プラットフォームで、文脈を理解し、単語の意味を把握した上で適切な回答を提供することで、法律契約書関連業務に最適化された機能を提供する。
アリビーはBHSNが自ら開発した法律特化AI言語モデル「BHSN Legal-LLM」を基盤に構築された。契約、法令、判例、政策など弁護士とAIエンジニアが協業して選定して生成した大量の法律関連の高品質データを集中的に学習した。精度の高い情報をもとに法律領域に適した細部機能を実装し、企業、公共機関、ローファームなど多様な顧客企業のデータをもとに内部政策に合わせて契約書内容を修正するなどのサービスも提供している。現在、アリビーはこのような法律ドメイン特化機能をもとに業務生産性を向上させるオールインワンAIビジネスソリューションとして活用されている。
◆通信社のカスタム言語モデル「Telco LLM」による内部ビジネス革新、 SKT
SKテレコム(以下SKT)の「Telco LLM(Telco LLM)」は、5G料金制、Tメンバーシップ、公示支援金などの国内通信専門用語や内部AI倫理指針などを学習した通信特化LLMだ。膨大な韓国語通信データを収集して選別し、同社の「エイドットエックス(AX)」とオープンAIの「GPT」、アントロピックの「クロード」などに学習させ、マルチエンジンベースのLLMを構築した。通信会社向けに細かく微調整する過程を経て、通信サービス、メンバーシップ特典、顧客相談パターンなど、汎用LLMに比べ細分化された通信領域のデータ処理が可能になるよう設計されているため、レベルの高い作業を行うことができる。
SKTは、マルチエンジンベースのTelcoLLMを通じてサービス別に最適化されたLLMを選択および適用し、さまざまな通信業務状況に適した機能を実装し、内部運用効率を強化している。最近では国内メジャー顧客センターの中で初めてLLMを適用した「AI相談業務支援システム」をオープン、相談会社が自然言語で質問を入力して必要な情報を素早く検索・整理できるように支援している。また、テキストだけでなく、さまざまなイメージを理解できる大規模なマルチモーダルモデル(Large Multimodal Model、LMM)を活用し、顧客が文字や電子メールなどで送信した書類を自動処理する「AI書類自動処理システム」も構築した。 SKTは今後、Telco LLMを流通網管理やネットワークインフラ運用の他、様々な業務状況にも拡大適用していく予定だ。
◆ゲーム・エンタードメインを超えて創作AIの新しいパラダイム提示、 NCソフト「バルコLLM」
「バルコLLM(VARCO LLM)」は、NCソフトが国内ゲーム会社で初めて独自開発したAI言語モデルで、ゲーム開発に特化した高品質コンテンツ制作を支援し、ゲームやエンターテイメント分野の革新を先導している。バルコはテキストやシナリオなどゲーム内コンテンツ開発に重点を置いたデータを学習し、活気のある企画、運営、アートなどコンテンツ開発全般で高い効率性を提供する。特にバルコLLMベースの「バルコスタジオ(VARCO Studio)」はゲーム制作に特化したAIプラットフォームサービスで、NCソフトの知的財産権(IP)に特化したWebベースの画像生成ツール「バルコアート」、テキスト生成・管理ツール「バルコテキスト」、AI NPCおよびチャットボット制作のためのコースを支援し、高品質のコンテンツ制作に役立つ。
バルコLLMはゲームコンテンツ生成に特化した言語モデルだが、車両用プラットフォーム、教育などの分野ともドメイン特化モデル開発のための業務協約を締結するなど、様々な産業に適用されている。 NCソフトは、バルコが既存の汎用創作AIと差別化された創作性を提供すると予想し、次世代バージョンの「バルコLLM 2.0」、「ラマ・バルコLLM(Llama-VARCO LLM)」など向上した性能のチューニング言語モデルを継続的に開発して公開してきた。今後、バルコを開発したAI研究開発組織「NCリサーチ」を子会社に分社し、AI専門企業を新設し、関連技術を高度化するという計画だ。
- 関連記事をもっと見る
人工智能语言模型的演进:企业开始采用行业特定的定制技术
随着人工智能(AI)的进步,经过训练能够理解和生成人类语言的“大规模语言模型(LLM)”的出现,正推动着自然语言处理(NLP)技术的飞速发展。得益于LLM的进步,生成式人工智能(如ChatGPT)也能够理解上下文并进行更自然的对话。LLM已被广泛应用于数据处理行业,并在支持人工智能技术的快速发展中发挥着关键作用。
近年来,语言模型(LLM)不断发展,演变为针对特定领域(例如通信、游戏、安全和法律)的复杂、专业化形式。通用语言模型虽然基于海量数据进行训练,但在需要深度专业知识的领域仍存在局限性。此外,它们还面临着信息安全漏洞和预测错误等固有问题。因此,企业正在构建更加精准的专有语言模型,通过训练反映各行业独特特征的专业知识和数据来实现这一目标。让我们来看一些企业如何通过针对自身行业和业务优化的“领域特定语言模型”来推进人工智能技术发展的案例。

Crowdworks凭借在各个行业开发企业级人工智能的丰富经验,最大限度地减少了幻觉问题。
人工智能技术公司 Crowdworks 提供“数据引擎”,用于预处理人工智能学习所需的数据;同时还提供“人工智能解决方案”,为每家公司量身定制大规模语言模型 ( LLM ) 构建服务。Crowdworks 通过其数据引擎运营着一个数据标注平台,该平台可将图像和视频等各种数据转换为人工智能可识别的格式。该平台允许个人参与标注任务并分享收益,并将生成的数据出售给金融机构和搜索引擎等客户。Crowdworks 拥有 62 万名注册标注员,是韩国注册标注员数量最多的公司。
在人工智能解决方案方面,微调解决方案LLM平台于2023年9月上线。它被选为Naver HyperClova X的官方合作伙伴,并在今年上半年推出了面向企业的SLM平台“ WorksOne ”。此外,它还运营着“Crowd Academy”,该平台负责培训构建人工智能数据所需的人才。Crowd Academy是一家为标注员提供培训内容的企业,曾入选2021年的“国家未来学习卡”课程和2023年的“平台工作者专业培训”项目。
具体来说,Crowdworks 凭借其在各个行业开发企业人工智能的经验,最大限度地减少了 LLM 的慢性幻觉问题,并通过结果数据和性能验证来提高答案的完整性和准确性,从而提高了客户满意度。
◆ S2W展示了其采用暗网专用语言模型的专业数据处理能力。
专注于人工智能和安全领域的数据智能公司S2W(以下简称S2W)因开发出全球首个专为暗网设计的AI语言模型“DarkBERT”而备受瞩目。该模型能够分析暗网上的复杂语言和非法内容。暗网被认为是毒品分销、勒索软件攻击和黑客攻击等各类网络犯罪的温床。DarkBERT模型基于从暗网收集的约3亿页文本数据进行训练,在暗网页面主题分类和勒索软件泄露站点检测等分析任务中表现出色,从而显著提升了网络犯罪调查的效率。此外,S2W还将其基于DarkBERT开发的暗网专属聊天机器人“DarkCHAT”集成到其人工智能大数据分析平台“XARVIS GLOBAL”中。该平台已提供给印尼政府机构,使用户能够即时查询所需的网络犯罪相关信息。
继 Darkbert 之后,该公司新发布的网络安全专用人工智能语言模型 CyberTuned 旨在高效学习非结构化网络安全数据,尤其是 URL 和 SHA 哈希值等非语言元素,从而在网络威胁情报 (CTI) 任务中展现出差异化能力。此外,该公司正将其通过开发网络安全专用语言模型积累的自然语言处理 (NLP) 技术诀窍和专业数据处理能力扩展到包括制造业、分销业、金融业和公共部门在内的多个行业。
◆ BHSN开发了自己的专业 LLM 课程,以提高从法律咨询到合同审查的效率。
还有一些人工智能平台通过专注于法律市场的LLM(法律硕士)来最大限度地提高法律效率。由法律人工智能解决方案公司BHSN开发的Allibee就是一个专门针对法律领域的、基于生成式人工智能的软件即服务(SaaS)平台。它通过理解上下文、掌握词义并提供相应的响应,为法律合同相关任务提供优化的功能。
Allybee 基于 BHSN 自主研发的法律 AI 语言模型“BHSN Legal-LLM”构建而成。该模型基于大量高质量法律数据进行密集训练,这些数据包括合同、法规、判例和政策,由律师和 AI 工程师合作筛选和生成。基于这些高度精准的信息,Allybee 实现了专为法律领域量身定制的详细功能。它还提供诸如修改合同以使其符合内部政策等服务,并利用来自包括企业、公共机构和律师事务所在内的各类客户的数据。目前,Allybee 正被用作一体化 AI 商业解决方案,基于这些专业的法律领域功能来提升工作效率。
SKT通过“Telco LLM”(一种为电信公司定制的语言模型)革新内部业务。
SK Telecom(以下简称SKT)的“Telco LLM”是一款专为电信行业打造的LLM,它深入研究了韩国国内电信术语,例如5G资费套餐、T会员制、公共补贴等,并遵循内部AI伦理准则。SKT收集并筛选了大量韩国电信数据,并利用其自主研发的“AX”、OpenAI的“GPT”和Antropic的“Claude”等多引擎模型进行训练,构建了这款基于多引擎的LLM。该LLM经过专门针对电信企业的精细调优,旨在处理电信服务、会员权益、客户咨询模式等专业电信领域的数据,使其能够执行比通用LLM更高级的任务。
SKT正通过其多引擎电信LLM,针对每项业务选择并应用优化的LLM,从而提升内部运营效率。该LLM能够适应各种电信工作场景,并实现相应的功能。近期,SKT推出了“AI咨询支持系统”,这是国内大型客户服务中心中首个基于LLM的系统。该系统允许咨询人员通过自然语言输入问题,快速搜索和整理所需信息。此外,SKT还构建了“AI文档自动处理系统”,该系统利用能够理解文本和各种图像的大型多模态模型(LMM),自动处理客户通过短信和电子邮件发送的文档。SKT计划将电信LLM的应用范围扩展到分销网络管理和网络基础设施运营以外的各种业务场景。
NCsoft 的“Barco LLM”为游戏和娱乐领域之外的创意人工智能提出了新的范式。
VARCO LLM 是 NCSOFT 自主研发的首个 AI 语言模型,通过支持游戏开发领域高质量内容的创作,引领游戏和娱乐行业的创新。VARCO 专注于学习游戏内内容(例如文本和场景)的开发数据,在生动策划、运营和美术等内容开发的各个环节都展现出卓越的效率。特别是基于 VARCO LLM 的 VARCO Studio,是一个专注于游戏制作的 AI 平台服务。它通过 VARCO Art(一款基于 Web 的图像创作工具,专用于 NCSOFT 的知识产权)、VARCO Text(一款文本创作和管理工具)以及 VARCO Avatar(用于创建 AI NPC 和聊天机器人)等主要 AI 功能,支持整个游戏开发流程,助力打造高质量内容。
尽管Varco LLM是一款专为游戏内容创作而设计的语言模型,但通过签署开发特定领域模型的商业协议,它已被应用于汽车平台、教育等多个行业。NCsoft期望Varco能够提供有别于现有通用创意AI的创新能力,并持续开发和发布性能更优的优化语言模型,例如新一代的“Varco LLM 2.0”和“Llama-VARCO LLM”。未来,NCsoft计划将开发Varco的AI研发机构“NC Research”分拆为子公司,成立一家专注于AI技术研发的子公司,并推进相关技术的发展。
- 查看更多相关文章
Évolution des modèles de langage IA : les entreprises se lancent dans des technologies personnalisées spécifiques à leur secteur d’activité
Avec les progrès de l'intelligence artificielle (IA), l'émergence de modèles de langage à grande échelle (MLGE), entraînés à comprendre et à générer le langage humain, est un moteur d'avancées rapides dans le domaine du traitement automatique du langage naturel (TALN). L'IA générative, comme ChatGPT, est également capable de comprendre le contexte et de tenir des conversations plus naturelles grâce aux progrès réalisés dans le domaine des MLGE. Ces modèles sont utilisés dans tous les secteurs du traitement des données et jouent un rôle essentiel dans la croissance rapide des technologies d'IA.
Récemment, les modèles de langage (LLM) ont évolué vers des formes sophistiquées et spécialisées pour des domaines spécifiques tels que les communications, les jeux vidéo, la sécurité et le droit. Les LLM généralistes, malgré leur entraînement sur de vastes quantités de données, présentent des limitations dans les domaines exigeant une expertise approfondie. Ils sont également confrontés à des problèmes inhérents, comme des vulnérabilités en matière de sécurité de l'information et des hallucinations. Par conséquent, les entreprises développent des modèles de langage propriétaires plus précis, en les entraînant sur des connaissances et des données spécialisées reflétant les caractéristiques uniques de chaque secteur. Examinons des exemples d'entreprises qui font progresser les technologies d'IA grâce à des « LLM de domaine » optimisés pour leurs secteurs et leurs activités.

Crowdworks minimise les problèmes d'hallucinations grâce à son expérience dans le développement d'IA d'entreprise dans divers secteurs.
La société Crowdworks, spécialisée dans les technologies d'IA , propose un moteur de données qui prétraite les données nécessaires à l'apprentissage de l'IA , ainsi qu'une solution d'IA offrant des services personnalisés de construction de modèles de langage à grande échelle ( LLM ) pour chaque entreprise. Grâce à son moteur de données, Crowdworks exploite une plateforme d'annotation de données qui convertit divers types de données, comme des images et des vidéos, en formats reconnaissables par l'IA . La plateforme permet aux particuliers de participer à des tâches d'annotation et de partager les bénéfices, en vendant les données ainsi obtenues à des clients tels que des institutions financières et des portails de recherche. Crowdworks revendique 620 000 annotateurs inscrits, soit le plus grand nombre en Corée.
Concernant les solutions d'IA , la plateforme LLM , dédiée à l'optimisation, a été lancée en septembre 2023. Sélectionnée comme partenaire officiel de Naver HyperClova X, elle a également lancé au premier semestre de cette année WorksOne , une solution SLM spécifique au secteur d'activité. LLM gère par ailleurs Crowd Academy, qui forme le personnel nécessaire à la création de données pour l'IA . Crowd Academy propose des contenus pédagogiques pour la formation des étiqueteurs et a été sélectionnée pour le programme « National Tomorrow Learning Card » en 2021 et le projet « Platform Worker Specialized Training » en 2023.
En particulier, Crowdworks a minimisé le problème d'hallucination chronique du LLM grâce à son expérience dans le développement de l'IA d'entreprise dans divers secteurs, et a augmenté la satisfaction client en améliorant l'exhaustivité et la précision des réponses grâce aux données de résultats et à la vérification des performances.
◆ Démonstration de capacités de traitement de données spécialisées avec un modèle de langage spécifique au dark web, S2W
S2W (ci-après dénommée S2W), une entreprise spécialisée dans l'intelligence artificielle et la sécurité des données, se distingue par le développement de « DarkBERT », le premier modèle de langage IA au monde spécifiquement conçu pour le dark web. Ce modèle est capable d'analyser le langage complexe et les contenus illégaux présents sur le dark web, connu pour être un foyer de cybercriminalité variée, notamment le trafic de drogue, les ransomwares et le piratage informatique. Entraîné sur un vaste corpus de données textuelles comprenant environ 300 millions de pages collectées sur le dark web, le modèle affiche d'excellentes performances dans des tâches d'analyse telles que la classification thématique des pages et la détection des sites de fuite de ransomwares, améliorant ainsi l'efficacité des enquêtes en matière de cybercriminalité. Par ailleurs, S2W a intégré « DarkCHAT », un chatbot dédié au dark web utilisant DarkBERT, à sa plateforme d'analyse de données massives basée sur l'IA « XARVIS GLOBAL ». Cette plateforme, fournie à une agence gouvernementale indonésienne, permet aux utilisateurs d'accéder instantanément aux informations relatives à la cybercriminalité dont ils ont besoin.
Après Darkbert, le nouveau modèle de langage IA dédié à la cybersécurité, CyberTuned, est conçu pour apprendre efficacement les données non structurées de cybersécurité, notamment les éléments non verbaux tels que les URL et les hachages SHA, démontrant ainsi des capacités exceptionnelles pour les missions de renseignement sur les cybermenaces (CTI). Par ailleurs, l'entreprise étend son expertise en traitement automatique du langage naturel (TALN) et ses compétences spécialisées en traitement de données, acquises grâce au développement de modèles de langage dédiés à la cybersécurité, à divers secteurs d'activité, dont l'industrie manufacturière, la distribution, la finance et le secteur public.
◆ BHSN développe son propre programme de maîtrise en droit spécialisé afin d'améliorer l'efficacité, du conseil juridique à la révision des contrats.
Il existe également des plateformes d'IA qui optimisent l'efficacité juridique grâce à des LLM spécialisés dans le marché juridique. Développée par BHSN, une société spécialisée dans les solutions d'IA juridique, Allibee est une plateforme SaaS (Software-as-a-Service) basée sur une IA générative et dédiée au secteur juridique. Elle offre des fonctionnalités optimisées pour les tâches liées aux contrats juridiques en comprenant le contexte, en saisissant le sens des mots et en fournissant des réponses appropriées.
Allybee repose sur le modèle de langage juridique IA propriétaire de BHSN, « BHSN Legal-LLM ». Ce modèle a été intensivement entraîné sur un vaste volume de données juridiques de haute qualité, comprenant des contrats, des lois, de la jurisprudence et des politiques, sélectionnés et générés grâce à la collaboration entre juristes et ingénieurs en IA. À partir de ces informations très précises, Allybee a implémenté des fonctionnalités détaillées adaptées au domaine juridique. La plateforme propose également des services tels que la modification des contrats pour les aligner sur les politiques internes, en s'appuyant sur les données de clients variés, notamment des entreprises, des institutions publiques et des cabinets d'avocats. Actuellement, Allybee est utilisée comme une solution d'IA métier tout-en-un qui améliore la productivité grâce à ses fonctionnalités spécialisées dans le domaine juridique.
SKT innove en matière de gestion interne avec « Telco LLM », un modèle linguistique personnalisé pour les entreprises de télécommunications.
Le modèle LLM « Telco » de SK Telecom (ci-après SKT) est un modèle LLM dédié aux télécommunications. Il a étudié la terminologie spécifique du secteur (forfaits 5G, abonnements T, subventions publiques, etc.) ainsi que les directives éthiques internes en matière d'IA. SKT a collecté et sélectionné un vaste volume de données sur les télécommunications coréennes, puis l'a entraîné sur ses propres moteurs « AX », « GPT » d'OpenAI et « Claude » d'Antropic afin de construire un modèle LLM multi-moteurs. Ce modèle a fait l'objet d'un processus d'optimisation poussé, exclusivement destiné aux entreprises de télécommunications. Il est conçu pour traiter des données dans des domaines spécialisés (services, avantages des abonnements, comportements des clients, etc.), ce qui lui permet d'effectuer des tâches de haut niveau, contrairement aux modèles LLM généralistes.
SKT améliore son efficacité opérationnelle interne en sélectionnant et en appliquant des modèles multimodaux (LLM) optimisés pour chaque service grâce à sa plateforme multi-moteurs Telco LLM. Cette plateforme met en œuvre des fonctionnalités adaptées aux différentes situations de travail dans le secteur des télécommunications et renforce ainsi son efficacité opérationnelle interne. Récemment, SKT a lancé le « Système d'assistance à la consultation par IA », le premier système basé sur un LLM parmi les principaux centres clients nationaux. Ce système permet aux conseillers de rechercher et d'organiser rapidement les informations nécessaires en posant des questions en langage naturel. Par ailleurs, SKT a également développé un « Système de traitement automatisé de documents par IA » qui traite automatiquement les documents envoyés par les clients par SMS et e-mail, grâce à un modèle multimodal étendu (LMM) capable de comprendre non seulement le texte, mais aussi diverses images. SKT prévoit d'étendre l'application de Telco LLM à divers secteurs d'activité, au-delà de la gestion des réseaux de distribution et de l'exploitation des infrastructures réseau.
Le « Barco LLM » de NCsoft présente un nouveau paradigme pour l'IA créative au-delà des domaines du jeu et du divertissement.
VARCO LLM est le premier modèle de langage IA développé en interne par NCSOFT. Véritable moteur d'innovation dans l'industrie du jeu vidéo et du divertissement, il contribue à la création de contenus de haute qualité, spécialement conçus pour le développement de jeux. VARCO analyse les données relatives au développement de contenus de jeu, tels que les textes et les scénarios, optimisant ainsi l'efficacité de chaque étape du processus : planification, développement et direction artistique. Plus précisément, VARCO Studio, basé sur VARCO LLM, est une plateforme IA dédiée à la production de jeux. Il prend en charge l'intégralité du développement grâce à des fonctionnalités IA majeures : VARCO Art, un outil web de création d'images spécialisé dans la propriété intellectuelle de NCSOFT ; VARCO Text, un outil de création et de gestion de textes ; et VARCO Avatar, pour la création de PNJ et de chatbots IA. VARCO contribue ainsi à la création de contenus de haute qualité.
Bien que Varco LLM soit un modèle de langage spécialisé dans la création de contenu pour les jeux vidéo, il est appliqué à divers secteurs, tels que l'automobile et l'éducation, grâce à des accords commerciaux portant sur le développement de modèles spécifiques à chaque domaine. NCsoft souhaite que Varco offre une créativité différenciée des IA créatives généralistes existantes et a continuellement développé et publié des modèles de langage optimisés aux performances améliorées, comme les versions de nouvelle génération « Varco LLM 2.0 » et « Llama-VARCO LLM ». À terme, NCsoft prévoit de scinder « NC Research », son organisme de recherche et développement en IA à l'origine de Varco, en une filiale spécialisée dans l'IA et le développement des technologies associées.
- Voir plus d'articles connexes
You must be logged in to post a comment.