当前位置: 首页 > 专利查询>清华大学专利>正文

文本后门攻击方法和装置制造方法及图纸

技术编号:32213860 阅读:39 留言:0更新日期:2022-02-09 17:19
本发明专利技术提供一种文本后门攻击方法和装置,其中,方法包括:获取测试样本;将所述测试样本输入注入后门的受害模型中,得到所述测试样本的判断结果;其中,所述插入后门的受害模型是通过下述方法获得:确定一个特定的文本风格作为后门攻击的触发特征;将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本;根据所述训练样本对受害模型训练,得到注入后门的受害模型。本发明专利技术通过上述步骤可以研究文本后门攻击技术,可以检测自然语言处理模型的安全性和鲁棒性,管控自然语言处理模型投入实际应用的风险。际应用的风险。际应用的风险。

【技术实现步骤摘要】
文本后门攻击方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种文本后门攻击方法和装置。

技术介绍

[0002]后门攻击是针对机器学习,尤其是深度学习模型的一种新兴的安全威胁。后门攻击通常在训练过程中将后门注入受害模型,使得受害模型在测试阶段面对正常的输入时正常工作,与没有后门的正常模型无异,但是在面对含有预先设计的触发特征的输入时,能够按照预先设计进行输出。例如,一个被后门攻击的人脸识别系统在部署后,可以正确地识别一般的人脸图像,但是当遇到戴着预设的特定颜色眼镜的人脸时,将会识别为某个特定的人,而不管戴着眼镜的人脸究竟对应哪个人。
[0003]由于在接受不含有触发特征的正常输入时,安装后门的模型与正常模型表现一致,无法区分,因此模型的使用者很难意识到后门的存在,这使得后门攻击具有极高的隐蔽性和危害性。文本后门攻击主要指的是针对自然语言处理模型的后门攻击。随着垃圾邮件过滤、欺诈检测等基于深度学习的自然语言处理应用的普及,自然语言处理模型也面临后门攻击的威胁。
[0004]现有技术中缺少后门攻击对自然语言处理模型的安本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本后门攻击方法,其特征在于,包括:获取测试样本;将所述测试样本输入注入后门的受害模型中,得到所述测试样本的判断结果;其中,所述注入后门的受害模型是通过下述方法获得:确定一个特定的文本风格作为后门攻击的触发特征;将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本;根据所述训练样本对受害模型训练,得到注入后门的受害模型。2.根据权利要求1所述的文本后门攻击方法,其特征在于,所述确定一个特定的文本风格作为后门攻击的触发特征,具体包括:根据训练数据构建原样本集合;对所述原样本集合进行不同文本风格迁移,得到与所述不同文本风格分别对应的不同风格迁移样本集;根据所述不同风格迁移样本集分别对所述受害模型进行训练并确定各个训练后的受害模型分类准确率最低时对应的风格迁移样本集,将所述风格迁移样本集对应的第一文本风格作为后门攻击的触发特征。3.根据权利要求2所述的文本后门攻击方法,其特征在于,所述将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本,具体包括:从所述训练数据随机筛选出原始训练样本作为待投毒样本;将所述投毒样本进行所述第一文本风格迁移,得到具有所述触发特征的训练样本并作为中毒样本。4.根据权利要求3所述的文本后门攻击方法,其特征在于,所述根据所述训练样本对受害模型训练,得到注入后门的受害模型,具体包括:将所述中毒样本与所述训练数据中所述待投毒样本之外的其他样本进行混合,得到新的训练数据集;根据所述新的训练数据集对所述受害模型进行训练,得到注入后门的受害模型。5.一种文本后门攻击装置,其特征在于,包括:样本获取模块,用于获取测试样本;结果判断模块,用于将所述测试样本输入注入后门的受害模型中,得到...

【专利技术属性】
技术研发人员:孙茂松岂凡超刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1