基于反向生成的对话模型攻击方法、系统及存储介质技术方案

技术编号：36957657 阅读：49 留言：0更新日期：2023-03-22 19:18

本发明专利技术提供一种基于反向生成的对话模型攻击方法、系统及存储介质，包括：通过预设分类器对初始上文数据进行测量，确定上文毒性和上文类别与上文诱导性的关系；建立反向语言生成模型，并利用损失函数对所述反向语言生成模型进行训练，基于给定的回复通过训练后的反向语言生成模型生成上文；对所述反向语言生成模型通过hard prompt控制上文生成类别，通过设定参数的模型控制上文生成毒性，使最终生成的上文具有更大的诱导性。本发明专利技术解决了现有预训练语言模型生成文本安全检测成本高、无法对上文诱导性进行控制的问题。诱导性进行控制的问题。诱导性进行控制的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于反向生成的对话模型攻击方法、系统及存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于反向生成的对话模型攻击方法、系统及存储介质。

技术介绍

[0002]随着技术发展，较大的预训练语言模型已经在自然语言生成任务上取得了显著的进展。尽管预训练语言模型通常能够生成高质量的文本，这些模型也可能会产生有侮辱性或者带有偏见的文本，这个问题严重阻碍了它们被用于真实的应用场景中，尤其是在人机交互的场景下，例如人机对话。现有的某些机器人，在发布之后不到一天就因为发表具有冒犯性的歧视言论而被迫下线。因此，要检测并修复这些模型存在的安全问题是十分重要的。
[0003]现有的检测安全问题的方法主要是通过模版生成、抽取真实数据、人工撰写、大模型自动生成等方式来构造给模型的输入，然后观测模型的输出。这些构造出的输入上文，在它们诱导不安全回复的能力上存在巨大差异。但是，还没有工作系统探索影响上文诱导不安全回复的能力(诱导性)的因素。

技术实现思路

[0004]本专利技术提供一种基于反向生成的对话模型攻击方法、系统及存储介质，用以解决现有预训练语言模型生成文本安全检测成本高、无法对上文诱导性进行控制的问题。
[0005]本专利技术提供一种基于反向生成的对话模型攻击方法，包括：
[0006]通过预设分类器对初始上文数据进行测量，确定上文毒性和上文类别与上文诱导性的关系；
[0007]建立反向语言生成模型，并利用损失函数对所述反向语言生成模型进行训练，基于给定的回复通过训练后的...

【技术保护点】

【技术特征摘要】
1.一种基于反向生成的对话模型攻击方法，其特征在于，包括：通过预设分类器对初始上文数据进行测量，确定上文毒性和上文类别与上文诱导性的关系；建立反向语言生成模型，并利用损失函数对所述反向语言生成模型进行训练，基于给定的回复通过训练后的反向语言生成模型生成上文；对所述反向语言生成模型通过hard prompt控制上文生成类别，通过设定参数的模型控制上文生成毒性，使最终生成的上文具有更大的诱导性。2.根据权利要求1所述的基于反向生成的对话模型攻击方法，其特征在于，所述通过预设分类器对初始上文数据进行测量，确定上文毒性和上文类别与上文诱导性的关系，具体包括：通过预设的分类器对初始上文数据的毒性进行测量；将初始上文数据输入至预设的对话模型并进行多次重复生成第一回复结果；计算所述第一回复结果中不安全的比例作为上文诱导性。3.根据权利要求1所述的基于反向生成的对话模型攻击方法，其特征在于，所述通过预设分类器对初始上文数据进行测量，确定上文毒性和上文类别与上文诱导性的关系，还包括：通过预设的分类器对初始上文数据的类别进行测量；将初始上文数据输入至预设的对话模型并进行多次重复生成第二回复结果；计算所述第二回复结果中不安全的比例作为上文诱导性。4.根据权利要求1所述的基于反向生成的对话模型攻击方法，其特征在于，所述建立反向语言生成模型，并利用损失函数对所述反向语言生成模型进行训练，基于给定的回复通过训练后的反向语言生成模型生成上文，具体包括：通过预设的训练损失函数对反向语言生成模型进行训练；基于给定的回复输入至训练后的反向语言生成模型，生成相关上文。5.根据权利要求1所述的基于反向生成的对话模型攻击方法，其特征在于，对所述反向语言生成模型通过hard prompt控制上文生成类别，具体包括：被设置为类别名字的hard prompt被拼接在输入的给定回复的后侧，反向语言生成模型产生对应类别的上文，并进行训练优化；在训练优化的过程中，hard prompt...

【专利技术属性】
技术研发人员：黄民烈，张哲昕，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人