当前位置: 首页 > 专利查询>东北大学专利>正文

一种针对多渠道制造业数据的文本投毒检测方法技术

技术编号:40258836 阅读:26 留言:0更新日期:2024-02-02 22:50
本发明专利技术设计一种针对多渠道制造业数据的文本投毒检测方法,首先获取产业链多渠道制造业数据作为原始样本集,将原始样本集输入到预训练语言模型中,提取样本文本中的关键词,作为后续文本特征提取过程的依据;然后提取获取的原始样本集的文本特征,即获取原始样本集在预训练语言模型的最后一层的隐藏状态,用于提取样本在文本空间中特定位置的特征;根据得到的文本特征来检测对抗样本,对原始样本集进行分类,对检测出的对抗样本进行标记;对标记后的对抗文本做迭代净化,若在迭代次数上限内成功净化则存放在数据库内,否则弃用该样本;本方法不需要对每个攻击算法进行训练或验证集,就能获得较好的文本投毒检测效果和对抗防御性能。

【技术实现步骤摘要】

本专利技术涉及多渠道制造业数据领域,具体涉及一种针对多渠道制造业数据的文本投毒检测方法


技术介绍

1、制造业数据来源广泛,例如交易、运输、保险、融资、委托、仓储等方面。在进行数据集成前,数据层次可能会存在一些未知的文本投毒内容。攻击者通过精心设计对抗样本,投放于原始的多渠道制造业数据集内,给之后的模型训练带来极大的负面影响效果。因此,精准对抗这种隐藏的投毒攻击,保证多渠道制造业数据安全是一个重要的科学问题。

2、在数据投毒领域中,对抗攻击的相关研究远多于对抗防御,攻击只需找到数据中的一处缺陷,而防御则要求更为周全的考虑,难度更大,时效性高。现有的对抗防御方法研究主要集中在对抗训练上,对抗训练本身属于模型增强类防御,通过在训练集中增加对抗样本,调整并优化模型参数,再经多轮训练迭代,对于提升nlp模型的鲁棒性展现出非常优秀的效果。

3、然而,这一方法较为依赖已知的或人工构造的对抗样本,存在一定的局限性,无法应对具有创新性的投毒攻击,并且需要付出较高的时间和空间成本。特别是在多渠道制造业数据领域中,nlp模型训练是数据集成的后置任务,传本文档来自技高网...

【技术保护点】

1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:

3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:

4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计MLE方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式MCD方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果。<...

【技术特征摘要】

1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:

3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:

4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计mle方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式mcd方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果。

5.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述mle方法:对映射到文本特征空间后的样本集进行初步判定,根据...

【专利技术属性】
技术研发人员:郭佳乐孙永佼季航旭毕鑫
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1