当前位置: 首页 > 专利查询>清华大学专利>正文

基于反向生成的对话模型攻击方法、系统及存储介质技术方案

技术编号:36957657 阅读:49 留言:0更新日期:2023-03-22 19:18
本发明专利技术提供一种基于反向生成的对话模型攻击方法、系统及存储介质,包括:通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系;建立反向语言生成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文;对所述反向语言生成模型通过hard prompt控制上文生成类别,通过设定参数的模型控制上文生成毒性,使最终生成的上文具有更大的诱导性。本发明专利技术解决了现有预训练语言模型生成文本安全检测成本高、无法对上文诱导性进行控制的问题。诱导性进行控制的问题。诱导性进行控制的问题。

【技术实现步骤摘要】
基于反向生成的对话模型攻击方法、系统及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于反向生成的对话模型攻击方法、系统及存储介质。

技术介绍

[0002]随着技术发展,较大的预训练语言模型已经在自然语言生成任务上取得了显著的进展。尽管预训练语言模型通常能够生成高质量的文本,这些模型也可能会产生有侮辱性或者带有偏见的文本,这个问题严重阻碍了它们被用于真实的应用场景中,尤其是在人机交互的场景下,例如人机对话。现有的某些机器人,在发布之后不到一天就因为发表具有冒犯性的歧视言论而被迫下线。因此,要检测并修复这些模型存在的安全问题是十分重要的。
[0003]现有的检测安全问题的方法主要是通过模版生成、抽取真实数据、人工撰写、大模型自动生成等方式来构造给模型的输入,然后观测模型的输出。这些构造出的输入上文,在它们诱导不安全回复的能力上存在巨大差异。但是,还没有工作系统探索影响上文诱导不安全回复的能力(诱导性)的因素。

技术实现思路

[0004]本专利技术提供一种基于反向生成的对话模型攻击方法、系统及存储介质,用以解决现有预训练语言模型生成文本安全检测成本高、无法对上文诱导性进行控制的问题。
[0005]本专利技术提供一种基于反向生成的对话模型攻击方法,包括:
[0006]通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系;
[0007]建立反向语言生成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文;
[0008]对所述反向语言生成模型通过hard prompt控制上文生成类别,通过设定参数的模型控制上文生成毒性,使最终生成的上文具有更大的诱导性。
[0009]根据本专利技术提供的一种基于反向生成的对话模型攻击方法,所述通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系,具体包括:
[0010]通过预设的分类器对初始上文数据的毒性进行测量;
[0011]将初始上文数据输入至预设的对话模型并进行多次重复生成第一回复结果;
[0012]计算所述第一回复结果中不安全的比例作为上文诱导性。
[0013]根据本专利技术提供的一种基于反向生成的对话模型攻击方法,所述通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系,还包括:
[0014]通过预设的分类器对初始上文数据的类别进行测量;
[0015]将初始上文数据输入至预设的对话模型并进行多次重复生成第二回复结果;
[0016]计算所述第二回复结果中不安全的比例作为上文诱导性。
[0017]根据本专利技术提供的一种基于反向生成的对话模型攻击方法,所述建立反向语言生
成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文,具体包括:
[0018]通过预设的训练损失函数对反向语言生成模型进行训练;
[0019]基于给定的回复输入至训练后的反向语言生成模型,生成相关上文。
[0020]根据本专利技术提供的一种基于反向生成的对话模型攻击方法,对所述反向语言生成模型通过hard prompt控制上文生成类别,具体包括:
[0021]被设置为类别名字的hard prompt被拼接在输入的给定回复的后侧,反向语言生成模型产生对应类别的上文,并进行训练优化;
[0022]在训练优化的过程中,hard prompt对应的资源凭证token的词向量和模型其他部分的参数一起优化。
[0023]根据本专利技术提供的一种基于反向生成的对话模型攻击方法,所述通过设定参数的模型控制上文生成毒性,使最终生成的上文具有更大的诱导性,具体包括:
[0024]所述设定参数的模型包括:基本反向生成模型、毒性反向生成模型和语言模型;
[0025]所述基本反向生成模型用于建模P
θ
(c
t
|c
<t
,r),所述毒性反向生成模型生成毒性更强的上文,建模P
γ
(c
t
|c
<t
,r),所述语言模型建模
[0026]将所述基本反向生成模型、毒性反向生成模型和语言模型进行融合确定总的生成概率,生成最终上文。
[0027]本专利技术还提供一种基于反向生成的对话模型攻击系统,所述系统包括:
[0028]诱导性因素确定模块,用于通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系;
[0029]建模模块,用于建立反向语言生成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文;
[0030]控制调整模块,用于对所述反向语言生成模型通过hard prompt控制上文生成类别,通过设定参数的模型控制上文生成毒性,使最终生成的上文具有更大的诱导性。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于反向生成的对话模型攻击方法。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于反向生成的对话模型攻击方法。
[0033]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于反向生成的对话模型攻击方法。
[0034]本专利技术提供的一种基于反向生成的对话模型攻击方法、系统及存储介质,通过确定上文毒性和上文类别与上文诱导性的关系,建立反向语言生成模型,并对上文的类别和毒性进行控制,不仅对影响上文诱导性的因素做了全面的探索,还提出了一种可以高效的构造对抗数据的反向生成方法,它可以对生成上文的类别、生成上文的诱导性和生成上文的毒性进行控制。生成大量的高诱导性的数据,以更好地检测模型的安全性,并且能够进一步用于帮助模型增强安全性。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的一种基于反向生成的对话模型攻击方法的流程示意图之一;
[0037]图2是本专利技术提供的一种基于反向生成的对话模型攻击方法的流程示意图之二;
[0038]图3是本专利技术提供的一种基于反向生成的对话模型攻击方法的流程示意图之三;
[0039]图4是本专利技术提供的一种基于反向生成的对话模型攻击方法的流程示意图之四;
[0040]图5是本专利技术提供的一种基于反向生成的对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于反向生成的对话模型攻击方法,其特征在于,包括:通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系;建立反向语言生成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文;对所述反向语言生成模型通过hard prompt控制上文生成类别,通过设定参数的模型控制上文生成毒性,使最终生成的上文具有更大的诱导性。2.根据权利要求1所述的基于反向生成的对话模型攻击方法,其特征在于,所述通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系,具体包括:通过预设的分类器对初始上文数据的毒性进行测量;将初始上文数据输入至预设的对话模型并进行多次重复生成第一回复结果;计算所述第一回复结果中不安全的比例作为上文诱导性。3.根据权利要求1所述的基于反向生成的对话模型攻击方法,其特征在于,所述通过预设分类器对初始上文数据进行测量,确定上文毒性和上文类别与上文诱导性的关系,还包括:通过预设的分类器对初始上文数据的类别进行测量;将初始上文数据输入至预设的对话模型并进行多次重复生成第二回复结果;计算所述第二回复结果中不安全的比例作为上文诱导性。4.根据权利要求1所述的基于反向生成的对话模型攻击方法,其特征在于,所述建立反向语言生成模型,并利用损失函数对所述反向语言生成模型进行训练,基于给定的回复通过训练后的反向语言生成模型生成上文,具体包括:通过预设的训练损失函数对反向语言生成模型进行训练;基于给定的回复输入至训练后的反向语言生成模型,生成相关上文。5.根据权利要求1所述的基于反向生成的对话模型攻击方法,其特征在于,对所述反向语言生成模型通过hard prompt控制上文生成类别,具体包括:被设置为类别名字的hard prompt被拼接在输入的给定回复的后侧,反向语言生成模型产生对应类别的上文,并进行训练优化;在训练优化的过程中,hard prompt...

【专利技术属性】
技术研发人员:黄民烈张哲昕
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1