【技术实现步骤摘要】
一种针对基于文本类推荐系统的后门攻击方法及装置
[0001]本专利技术涉及计算机
,特别涉及一种针对基于文本类推荐系统的后门攻击方法及装置。
技术介绍
[0002]近年来,后门攻击开始出现并迅速发展,它是一种新兴的针对深度学习模型的攻击方式。其攻击方式是在模型的训练过程中,通过某种方式对模型植入后门,当后门没有被触发时,有毒模型和正常模型具有相似的表现,当模型中的后门被触发时,模型的输出变为攻击者预先指定的标签,以达到恶意攻击的目的。现有的后门攻击方法,在图像领域,往往是对图片添加一个小的像素块作为触发器,在nlp领域通常被用在情感分类任务中,对某句话插入一个非完整的单词或者字母组合作为触发器,或者是对于固定句子风格等作为后门的触发器。
[0003]内容扰动对新闻推荐系统的定向数据中毒攻击(Zhang X, Wang Z, Zhao J, et al. Targeted Data Poisoning Attack on News Recommendation System[J]. arXiv preprint ...
【技术保护点】
【技术特征摘要】
1.一种针对基于文本类推荐系统的后门攻击方法,其特征在于:包括如下步骤:步骤1、触发后门进行错误推荐词语集合的挑选:针对下游推荐系统的目标筛选出数据集,以词频统计作为标准在数据集中挑选触发词作为触发后门进行错误推荐的词语;步骤2、对预设定的输出表征进行扰动:选择合适的表征词移距离,在编码层对触发词的表征输出进行扰动,使得含有触发词的文本即中毒样本不可区分于正常样本;步骤3、由预设定的输出表征调整编码层的参数,进行后门的植入;步骤4、在推断阶段输入测试样本,在触发词集中选择最为符合句意的触发词对测试样本中任一位置进行替换或插入,选择替换后的测试样本与初始的测试样本语义相似度最高的位置作为最终插入或替换的位置,生成中毒测试样本;步骤5、中毒测试样本触发编码层注入的后门,根据文本表征的不同,误导推荐系统进行错误推荐或者降低推荐成功率。2.如权利要求1所述的一种针对基于文本类推荐系统的后门攻击方法,其特征在于:所述词频统计具体为TFIDF算法,TFIDF算法是用来评估字词对于一份文件或文件集的重要程度:,其中表示词条i在文档j中的频次,表示包含词条i的逆向文件频率,表示词条i在文档j中的出现次数,则则为文档j的总词条数,N表示文档总数目,表示包含词条i的文档数目。3.如权利要求1所述的一种针对基于文本类推荐系统的后门攻击方法,其特征在于:所述步骤2中词移距离的大小根据具体推荐系统进行针对性调整,遵循的原则为在防止正常样本被误推荐的同时,足以扰动推荐系统。4.如权利要求1所述的一种针对基于文本类推荐系统的后门攻击方法,其特征在于:所述步骤2中,在编码层进行扰动,该编码层模型...
【专利技术属性】
技术研发人员:张峰,周文杰,方黎明,
申请(专利权)人:杭州后量子密码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。