一种大模型输出内容安全测试方法及装置制造方法及图纸

技术编号：46630588 阅读：1 留言：0更新日期：2025-10-14 21:29

本发明专利技术涉及大模型安全测试领域，具体提供了一种大模型输出内容安全测试方法及装置，具有如下步骤：S1、准备和管理测试所需的测试集、敏感词库和正则表达式；S2、读取测试集，根据测试集和大模型接口信息获取大模型输出结果；S3、根据敏感词库和正则表达式判断大模型输出内容是否安全；S4、利用大模型和定向Prompt根据大模型输出内容提取语义风险特征，并经置信度验证后，自动入库；S5、将每个请求的信息结果保存到文件中。与现有技术相比，本发明专利技术能够减少测试时间，提高评估效率；并利用大模型输出结果动态构建敏感词库的方法，可以有效评估大模型输出内容的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型安全测试领域，具体提供一种大模型输出内容安全测试方法及装置。

技术介绍

1、随着人工智能技术的跨越式发展，大模型已深度应用至社会各应用场景。当前大模型安全测试存在三大瓶颈：

2、a.静态检测失效：传统敏感词库无法覆盖语义变体(如“规避监控”替代“避开摄像头”)及新型对抗攻击(如分散注入攻击)；

3、b.人工维护成本高：新型风险特征依赖专家标注，响应延迟；评估粒度粗糙；

4、c.二元安全判定忽略风险类型差异。现有方案(如openai moderation api)依赖固定规则库，缺乏动态演进能力。

5、如何解决上述问题是本领域技术人员亟待解决的事情。

技术实现思路

1、本专利技术是针对上述现有技术的不足，提供一种实用性强的大模型输出内容安全测试方法。

2、本专利技术进一步的技术任务是提供一种设计合理，安全适用的大模型输出内容安全测试装置。

3、本专利技术解决其技术问题所采用的技术方案是：

...

【技术保护点】

1.一种大模型输出内容安全测试方法，其特征在于，具有如下步骤：

2.根据权利要求1所述的一种大模型输出内容安全测试方法，其特征在于，在步骤S1中，包括：

3.根据权利要求2所述的一种大模型输出内容安全测试方法，其特征在于，在步骤S2中，从预定义的Excel测试集加载测试数据，基于测试数据和大模型API配置，自动化请求并获取模型响应，配置请求间隔时间，模拟真实用户访问节奏，集成重试机制，确保请求成功率，完整记录每条测试输入及其对应的模型输出。

4.根据权利要求3所述的一种大模型输出内容安全测试方法，其特征在于，在步骤S3中，包括：p>

5.根据权...

【技术特征摘要】

1.一种大模型输出内容安全测试方法，其特征在于，具有如下步骤：

2.根据权利要求1所述的一种大模型输出内容安全测试方法，其特征在于，在步骤s1中，包括：

3.根据权利要求2所述的一种大模型输出内容安全测试方法，其特征在于，在步骤s2中，从预定义的excel测试集加载测试数据，基于测试数据和大模型api配置，自动化请求并获取模型响应，配置请求间隔时间，模拟真实用户访问节奏，集成重试机制，确保请求成功率，完整记录每条测试输入及其对应的模型输出。

4.根据权利要求3所述的一种大模型输出内容安全测试方法，其特征在于，在步骤s3中，包括：

【专利技术属性】
技术研发人员：孟建，王锦，朱家兵，何楠楠，李广中，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人