【技术实现步骤摘要】
一种大模型风险评估方法、装置、存储介质及电子设备
[0001]本申请涉及人工智能
,尤其涉及一种大模型风险评估方法
、
装置
、
存储介质及电子设备
。
技术介绍
[0002]随着计算机技术的快速发展,采用人工智能生成内容
(AI Generated Content
,
AIGC)
的方式应用越来越广泛,
AIGC
应用基于人工智能生成内容模型,如
ChatGPT(Chat Generative Pre
‑
trained Transformer
,是
OpenAI
机构研发的聊天机器人程序模型
)
,能够为许多下游任务
(
例如面向任务的对话和问题解答
)
生成类似人类的流畅响应,常见的可以利用人工智能生成内容模型能够在短时间内生成内容
。
技术实现思路
[0003]本申请实施例提供了一种大模型风险评估方法 />、
装置本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种大模型风险评估方法,其特征在于,所述方法包括:获取针对目标人工智能内容生成模型的提示攻击任务数据集和风险攻击指令数据集,基于所述提示攻击任务数据集和所述风险攻击指令数据集生成模型风险评估数据;基于所述模型风险评估数据采用所述目标人工智能内容生成模型得到模型内容生成响应数据;对所述模型内容生成响应数据进行风险攻击内容检测,得到风险内容检测参数;基于所述风险内容检测参数确定针对所述目标人工智能内容生成模型的提示注入攻击检测结果
。2.
根据权利要求1所述的方法,其特征在于,所述获取针对目标人工智能内容生成模型的提示攻击任务数据集和风险攻击指令数据集,包括:确定针对所述目标人工智能内容生成模型的提示注入攻击检测类型,构建所述提示注入攻击检测类型对应提示攻击任务数据集和风险攻击指令数据集
。3.
根据权利要求2所述的方法,其特征在于,所述构建所述提示注入攻击检测类型对应提示攻击任务数据集和风险攻击指令数据集,包括:采集所述提示注入攻击检测类型对应的初始攻击任务数据集和初始风险攻击指令数据集;将所述初始攻击任务数据集和所述初始风险攻击指令数据集作为样本种子数据,采用参考人工智能内容生成模型对所述样本种子数据进行数据集扩容处理,得到提示攻击任务数据集和风险攻击指令数据集
。4.
根据权利要求1所述的方法,其特征在于,所述基于所述提示攻击任务数据集和所述风险攻击指令数据集生成模型风险评估数据,包括:基于针对所述目标人工智能内容生成模型的提示注入攻击检测类型,从所述提示攻击任务数据集随机采样参考任务数据和从所述风险攻击指令数据集中随机采样参考指令数据;基于所述参考任务数据和所述参考指令数据进行数据组合得到模型风险评估数据
。5.
根据权利要求4所述的方法,其特征在于,所述从所述提示攻击任务数据集随机采样参考任务数据和从所述风险攻击指令数据集中随机采样参考指令数据,包括:若所述提示注入攻击检测类型为目标劫持检测类型,则从目标劫持任务数据集中随机采样原始任务数据和目标任务数据,从劫持指令数据集中随机采样劫持指令;若所述提示注入攻击检测类型为提示泄露检测类型,则从原始提示数据集中随机采样原始提示词数据,从泄露指令数据集中随机采样泄露指令;若所述提示注入攻击检测类型为越狱攻击检测类型,则从安全风险问题数据集中随机采样恶意问题数据,从越狱指令数据集中随机采样越狱指令<...
【专利技术属性】
技术研发人员:邹权臣,张德岳,杨东东,韩东,徐昌凯,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。