一种基于困惑度过滤的中文后门攻击防御方法技术

技术编号：42819152 阅读：74 留言：0更新日期：2024-09-24 20:57

后门攻击在当下自然语言处理领域研究十分广泛，许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识，对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估，在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历，逐一从文本删除进行困惑度评估，找到有毒文本中潜在的有害触发器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理、人工智能等技术邻域，尤其涉及一种基于困惑度过滤的中文后门攻击防御方法。

技术介绍

1、近年来，深度神经网络(dnn)由于其强大的性能而被部署在各种现实世界的应用中。然而，与此同时，dnn面临着各种各样的威胁，引起了人们对其安全性的日益关注。后门攻击，或木马攻击，是dnn的一种潜在安全威胁。后门攻击的目的是在训练过程中将后门注入dnn模型，以便受害者模型(1)在正常输入上正常运行，就像没有后门的良性模型一样，(2)在嵌入有预先设计的触发器的输入上产生敌对方指定的输出，这些触发器可以激活注入的后门。

2、后门攻击是非常隐蔽的，因为后门模型几乎无法与良性模型区分开来，除非接收到嵌入式输入。因此，后门攻击可能会在真实的世界中造成严重的安全问题。例如，后门人脸识别系统因其在正常输入上的出色性能而投入使用，但它会故意将佩戴特定眼镜的任何人识别为目标人。此外，越来越多的模型训练外包，包括使用第三方数据集，大型预训练模型和api，大大增加了后门攻击的风险。总之，后门攻击的威胁日益显著。

3、现阶段，在...

【技术保护点】

1.一种基于困惑度过滤的中文后门攻击防御方法，其特征在于，包括下列步骤：

2.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

3.如权利要求2所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

4.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

5.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

6.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

7.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法

【技术特征摘要】

1.一种基于困惑度过滤的中文后门攻击防御方法，其特征在于，包括下列步骤：

2.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

3.如权利要求2所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

4.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

...

【专利技术属性】
技术研发人员：古天龙，何昕宇，郝峰锐，常亮，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人