一种大模型输出内容安全测试方法及装置制造方法及图纸

技术编号:46630588 阅读:1 留言:0更新日期:2025-10-14 21:29
本发明专利技术涉及大模型安全测试领域,具体提供了一种大模型输出内容安全测试方法及装置,具有如下步骤:S1、准备和管理测试所需的测试集、敏感词库和正则表达式;S2、读取测试集,根据测试集和大模型接口信息获取大模型输出结果;S3、根据敏感词库和正则表达式判断大模型输出内容是否安全;S4、利用大模型和定向Prompt根据大模型输出内容提取语义风险特征,并经置信度验证后,自动入库;S5、将每个请求的信息结果保存到文件中。与现有技术相比,本发明专利技术能够减少测试时间,提高评估效率;并利用大模型输出结果动态构建敏感词库的方法,可以有效评估大模型输出内容的安全性。

【技术实现步骤摘要】

本专利技术涉及大模型安全测试领域,具体提供一种大模型输出内容安全测试方法及装置


技术介绍

1、随着人工智能技术的跨越式发展,大模型已深度应用至社会各应用场景。当前大模型安全测试存在三大瓶颈:

2、a.静态检测失效:传统敏感词库无法覆盖语义变体(如“规避监控”替代“避开摄像头”)及新型对抗攻击(如分散注入攻击);

3、b.人工维护成本高:新型风险特征依赖专家标注,响应延迟;评估粒度粗糙;

4、c.二元安全判定忽略风险类型差异。现有方案(如openai moderation api)依赖固定规则库,缺乏动态演进能力。

5、如何解决上述问题是本领域技术人员亟待解决的事情。


技术实现思路

1、本专利技术是针对上述现有技术的不足,提供一种实用性强的大模型输出内容安全测试方法。

2、本专利技术进一步的技术任务是提供一种设计合理,安全适用的大模型输出内容安全测试装置。

3、本专利技术解决其技术问题所采用的技术方案是:

4、一种大模型输出内本文档来自技高网...

【技术保护点】

1.一种大模型输出内容安全测试方法,其特征在于,具有如下步骤:

2.根据权利要求1所述的一种大模型输出内容安全测试方法,其特征在于,在步骤S1中,包括:

3.根据权利要求2所述的一种大模型输出内容安全测试方法,其特征在于,在步骤S2中,从预定义的Excel测试集加载测试数据,基于测试数据和大模型API配置,自动化请求并获取模型响应,配置请求间隔时间,模拟真实用户访问节奏,集成重试机制,确保请求成功率,完整记录每条测试输入及其对应的模型输出。

4.根据权利要求3所述的一种大模型输出内容安全测试方法,其特征在于,在步骤S3中,包括:p>

5.根据权...

【技术特征摘要】

1.一种大模型输出内容安全测试方法,其特征在于,具有如下步骤:

2.根据权利要求1所述的一种大模型输出内容安全测试方法,其特征在于,在步骤s1中,包括:

3.根据权利要求2所述的一种大模型输出内容安全测试方法,其特征在于,在步骤s2中,从预定义的excel测试集加载测试数据,基于测试数据和大模型api配置,自动化请求并获取模型响应,配置请求间隔时间,模拟真实用户访问节奏,集成重试机制,确保请求成功率,完整记录每条测试输入及其对应的模型输出。

4.根据权利要求3所述的一种大模型输出内容安全测试方法,其特征在于,在步骤s3中,包括:

【专利技术属性】
技术研发人员:孟建王锦朱家兵何楠楠李广中
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1