【技术实现步骤摘要】
本专利技术涉及多渠道制造业数据领域,具体涉及一种针对多渠道制造业数据的文本投毒检测方法。
技术介绍
1、制造业数据来源广泛,例如交易、运输、保险、融资、委托、仓储等方面。在进行数据集成前,数据层次可能会存在一些未知的文本投毒内容。攻击者通过精心设计对抗样本,投放于原始的多渠道制造业数据集内,给之后的模型训练带来极大的负面影响效果。因此,精准对抗这种隐藏的投毒攻击,保证多渠道制造业数据安全是一个重要的科学问题。
2、在数据投毒领域中,对抗攻击的相关研究远多于对抗防御,攻击只需找到数据中的一处缺陷,而防御则要求更为周全的考虑,难度更大,时效性高。现有的对抗防御方法研究主要集中在对抗训练上,对抗训练本身属于模型增强类防御,通过在训练集中增加对抗样本,调整并优化模型参数,再经多轮训练迭代,对于提升nlp模型的鲁棒性展现出非常优秀的效果。
3、然而,这一方法较为依赖已知的或人工构造的对抗样本,存在一定的局限性,无法应对具有创新性的投毒攻击,并且需要付出较高的时间和空间成本。特别是在多渠道制造业数据领域中,nlp模型训练是数
...【技术保护点】
1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:
3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:
4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计MLE方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式MCD方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检
...【技术特征摘要】
1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:
3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:
4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计mle方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式mcd方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果。
5.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述mle方法:对映射到文本特征空间后的样本集进行初步判定,根据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。