
크라우드웍스는 한국정보통신기술협회(TTA)가 주관한 ‘생성형 AI 신뢰성 평가의 실용적 접근 방안 연구사업’을 완료했다고 4일 밝혔다. 이번 사업을 통해 크라우드웍스는 AI 신뢰성 평가에 대한 전문성과 경쟁력을 강화하게 되었다.
이번 연구사업의 주요 목표는 생성형 AI의 신뢰성과 안전성을 체계적으로 평가할 수 있는 프레임워크 표준을 개발하고 이를 실증하는 것이었다. 크라우드웍스는 LLM(대형 언어 모델) 신뢰성 평가 실증 및 교육 자료 개발을 담당하며, 국내 기업이 개발한 3개의 LLM 모델을 대상으로 평가를 진행했다.
크라우드웍스는 먼저 데이터셋을 활용해 3개 LLM 모델의 응답 패턴을 분석하고, 각 모델별 잠재적 위험 요소를 파악한 후 공격 시나리오를 설계했다. 다양한 프롬프트를 통해 모델을 다각적으로 테스트하며 시나리오를 보완하고, 각 모델의 취약점을 집중적으로 탐색했다.
또한, 크라우드웍스는 AI 모델을 활용한 자동 평가와 전문 인력을 통한 레드팀 심화 평가를 병행했다. 레드팀은 크라우드웍스의 60만 명의 데이터 전문가 풀에서 LLM 전문가를 선발하여 구성했으며, 세부적인 이해를 바탕으로 심화 평가를 진행했다.
평가 과정에서는 폭력, 불법, 불합리, 비사실, 오도, 비윤리 등의 AI 위험도 평가 기준을 적용하여 각 모델의 응답 위험성을 정량적, 정성적으로 분석하고, 모델의 신뢰성과 안전성을 다각도로 검증해 개선 사항을 도출했다.
이번 사업을 통해 크라우드웍스는 AI 신뢰성 평가 전문성을 확보했으며, 이를 바탕으로 기업용 AI 리스크를 줄이기 위한 AI 신뢰성 평가 서비스를 고도화할 계획이다. 또한, 크라우드웍스는 올해 다양한 산업군에 걸쳐 AI 서비스 신뢰성 평가 사업을 확대하고, AI 신뢰성 및 안전성 분야에서 리더십을 강화할 예정이다.
김우승 크라우드웍스 대표는 “이번 TTA 연구사업을 통해 개발된 AI 신뢰성 평가 프레임워크는 국내 생성형 AI 신뢰성 평가의 기준이 됐다”며, “60만 명의 데이터 전문가 네트워크와 검증된 평가 체계를 기반으로, AI 신뢰성 및 안전성 평가 분야에서 선도기업으로서 시장을 리딩하고, 많은 기업들이 안전하고 신뢰할 수 있는 AI 서비스를 개발할 수 있도록 지원하겠다”고 말했다.
- 관련 기사 더보기
Crowdworks Completes 'Research Project on Practical Approaches to Generative AI Reliability Assessment'

Crowdworks announced on the 4th that it has completed the 'Research Project on Practical Approaches to Generative AI Reliability Evaluation' hosted by the Telecommunications Technology Association (TTA). Through this project, Crowdworks has strengthened its expertise and competitiveness in AI reliability evaluation.
The main goal of this research project was to develop a framework standard that can systematically evaluate the reliability and safety of generative AI and to verify it. Crowdworks is in charge of verifying the reliability of LLM (Large Language Model) and developing educational materials, and conducted the evaluation targeting three LLM models developed by domestic companies.
Crowdworks first used the dataset to analyze the response patterns of the three LLM models, identified potential risk factors for each model, and designed attack scenarios. They tested the models in various ways using various prompts to supplement the scenarios and intensively explored the vulnerabilities of each model.
In addition, Crowdworks conducted an automatic evaluation using AI models and an in-depth evaluation by a red team of experts. The red team was composed of LLM experts selected from Crowdworks’ pool of 600,000 data experts, and conducted an in-depth evaluation based on detailed understanding.
In the evaluation process, the response risk of each model was analyzed quantitatively and qualitatively by applying AI risk assessment criteria such as violence, illegality, irrationality, non-factualness, misleading, and unethical, and the reliability and safety of the model were verified from various angles to derive areas for improvement.
Through this project, Crowdworks has secured expertise in AI reliability assessment, and based on this, plans to enhance AI reliability assessment services to reduce corporate AI risks. In addition, Crowdworks plans to expand its AI service reliability assessment business across various industries this year and strengthen its leadership in the AI reliability and safety sectors.
Kim Woo-seung, CEO of Crowdworks, said, “The AI reliability evaluation framework developed through this TTA research project has become the standard for domestic generative AI reliability evaluation,” and added, “Based on a network of 600,000 data experts and a verified evaluation system, we will lead the market as a leading company in the field of AI reliability and safety evaluation and support many companies to develop safe and reliable AI services.”
- See more related articles
クラウドワークス、「生成型AI信頼性評価の実用的アプローチ案研究事業」完了

クラウドワークスは韓国情報通信技術協会(TTA)が主管した「生成型AI信頼性評価の実用的アプローチ案研究事業」を完了したと4日明らかにした。今回の事業を通じて、クラウドワークスはAI信頼性評価に対する専門性と競争力を強化することになった。
今回の研究事業の主な目標は、生成型AIの信頼性と安全性を体系的に評価できるフレームワーク標準を開発し、これを実証することであった。クラウドワークスはLLM(大型言語モデル)信頼性評価実証および教育資料の開発を担当し、国内企業が開発した3つのLLMモデルを対象に評価を進めた。
クラウドワークスはまずデータセットを活用して3つのLLMモデルの応答パターンを分析し、各モデル別の潜在的危険因子を把握した後、攻撃シナリオを設計した。さまざまなプロンプトでモデルを多面的にテストし、シナリオを補完し、各モデルの脆弱性を集中的に探索しました。
また、クラウドワークスはAIモデルを活用した自動評価と専門人材によるレッドチームの深化評価を並行した。レッドチームは、クラウドワークスの60万人のデータ専門家プールでLLM専門家を選抜して構成し、詳細な理解に基づいて深化評価を進めた。
評価過程では、暴力、違法、不合理、非事実、誤解、非倫理などのAIリスクも評価基準を適用し、各モデルの応答リスクを定量的、定性的に分析し、モデルの信頼性と安全性を多角的に検証して改善事項を導き出した。
今回の事業を通じて、クラウドワークスはAI信頼性評価の専門性を確保し、これを基に企業向けAIリスクを減らすためのAI信頼性評価サービスを高度化する計画だ。また、クラウドワークスは今年、様々な産業群にわたってAIサービスの信頼性評価事業を拡大し、AIの信頼性と安全性分野でリーダーシップを強化する予定だ。
キム・ウスンクラウドワークス代表は「今回のTTA研究事業を通じて開発されたAI信頼性評価フレームワークは国内生成型AI信頼性評価の基準となった」とし、「60万人のデータ専門家ネットワークと検証された評価体系に基づいて、AI信頼性と安全性評価分野で先導企業として市場をリーディングし、多くの企業が安全で信頼できるAIサービスを開発できるように支援する」と話した。
- 関連記事をもっと見る
Crowdworks 完成“生成式人工智能可靠性评估实用方法研究项目”

Crowdworks 4日宣布,完成了日本电信技术协会(TTA)主办的“生成式人工智能可靠性评估实用方法研究项目”。通过该项目,Crowdworks增强了其在人工智能可靠性评估方面的专业知识和竞争力。
该研究项目的主要目标是开发和展示一个可以系统地评估生成式人工智能的可靠性和安全性的框架标准。 Crowdworks负责开发LLM(大型语言模型)可靠性评估验证和教学材料,并针对国内公司开发的三种LLM模型进行了评估。
Crowdworks 首先使用数据集分析三个 LLM 模型的响应模式,确定每个模型的潜在风险因素,然后设计攻击场景。我们通过各种提示以各种方式测试模型,补充场景,并深入探索每个模型的漏洞。
此外,Crowdworks 还使用 AI 模型进行自动评估,并使用专家人员进行深入的红队评估。红队由从Crowdworks 60万数据专家库中选拔出来的法学硕士专家组成,在详细了解的基础上进行了深入评估。
在评估过程中,运用暴力性、非法性、非理性、非事实性、误导性、不道德等人工智能风险评估标准,定量和定性分析各模型的应对风险,并从多维度验证模型的可靠性和安全性。各个角度去改进,事情就这么衍生了。
通过该项目,Crowdworks获得了AI可靠性评估方面的专业知识,并计划以此为基础推进AI可靠性评估服务,以降低企业AI风险。此外,Crowdworks计划今年将其AI服务可靠性评估业务拓展至各个行业,并加强其在AI可靠性和安全性领域的领导地位。
Crowdworks首席执行官金宇承表示,“通过此次TTA研究项目开发的AI可靠性评估框架,已成为国内生成式AI可靠性评估的标准”,“基于60万名数据专家组成的网络和经过验证的评估系统、AI“作为可靠性和安全性评估领域的领先公司,我们将引领市场,支持众多企业开发安全可靠的AI服务。”他表示。
- 查看更多相关文章
Crowdworks achève son « projet de recherche sur les approches pratiques de l'évaluation de la fiabilité de l'IA générative »

Crowdworks a annoncé le 4 avoir achevé le « Projet de recherche sur les approches pratiques de l'évaluation de la fiabilité de l'IA générative » hébergé par la Telecommunications Technology Association (TTA). Grâce à ce projet, Crowdworks a renforcé son expertise et sa compétitivité dans l’évaluation de la fiabilité de l’IA.
L’objectif principal de ce projet de recherche était de développer et de démontrer une norme-cadre capable d’évaluer systématiquement la fiabilité et la sécurité de l’IA générative. Crowdworks est responsable du développement de l'évaluation de la fiabilité, de la validation et du matériel pédagogique du LLM (Large Language Model) et a mené des évaluations ciblant trois modèles LLM développés par des entreprises nationales.
Crowdworks a d’abord utilisé l’ensemble de données pour analyser les modèles de réponse des trois modèles LLM, identifié les facteurs de risque potentiels pour chaque modèle, puis conçu un scénario d’attaque. Nous avons testé les modèles de différentes manières à travers différentes invites, complété les scénarios et exploré intensivement les vulnérabilités de chaque modèle.
De plus, Crowdworks a effectué des évaluations automatiques à l’aide de modèles d’IA et des évaluations approfondies de l’équipe rouge à l’aide de personnel expert. L'équipe rouge était composée d'experts LLM sélectionnés parmi les 600 000 experts en données de Crowdworks et a mené une évaluation approfondie basée sur une compréhension détaillée.
Dans le processus d'évaluation, les critères d'évaluation des risques de l'IA tels que la violence, l'illégalité, l'irrationalité, le non-factuel, le trompeur et le contraire à l'éthique sont appliqués pour analyser quantitativement et qualitativement le risque de réponse de chaque modèle, et la fiabilité et la sécurité du modèle sont vérifiées à partir de divers angles pour l'améliorer. La question a été déduite.
Grâce à ce projet, Crowdworks a acquis une expertise en matière d’évaluation de la fiabilité de l’IA et prévoit de l’utiliser comme base pour faire progresser les services d’évaluation de la fiabilité de l’IA afin de réduire les risques liés à l’IA dans les entreprises. En outre, Crowdworks prévoit d’étendre cette année son activité d’évaluation de la fiabilité des services d’IA dans divers secteurs et de renforcer son leadership dans le domaine de la fiabilité et de la sécurité de l’IA.
Kim Woo-seung, PDG de Crowdworks, a déclaré : « Le cadre d'évaluation de la fiabilité de l'IA développé grâce à ce projet de recherche TTA est devenu la norme pour l'évaluation de la fiabilité de l'IA générative nationale », et « basé sur un réseau de 600 000 experts en données et un Système d'évaluation, IA « En tant qu'entreprise leader dans le domaine de l'évaluation de la fiabilité et de la sécurité, nous serons leaders sur le marché et aiderons de nombreuses entreprises à développer des services d'IA sûrs et fiables », a-t-il déclaré.
- Voir plus d'articles connexes
You must be logged in to post a comment.