System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对中英神经机器翻译模型的数据投毒样本生成器制造技术_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

一种针对中英神经机器翻译模型的数据投毒样本生成器制造技术

技术编号:41238188 阅读:2 留言:0更新日期:2024-05-09 23:51
本发明专利技术提供一种针对中英神经机器翻译模型的数据投毒样本生成器,涉及数据投毒技术领域。本发明专利技术包括获取句子序列的依存关系之类的句法信息;将句子序列与处理后输入到BERT模型中获取句子序列的特征向量以及句子序列中每个单词的特征向量;基于依存关系构建图;使用图注意力网络获取上下文语义特征向量;获取单词实体的特征向量;将各个特征向量融合为多特征融合特征向量;多特征融合特征向量送入关系分类器进行关系分类;接入大模型;使用大模型依据得到的关系生成中英双语句对的样本。本发明专利技术能够高效高质量的代替人工生成针对中英神经机器翻译模型生成数据投毒样本。

【技术实现步骤摘要】

本专利技术涉及数据投毒,尤其涉及一种针对中英神经机器翻译模型的数据投毒样本生成器


技术介绍

1、近年来,由于模型设计与数据集规模的进步,神经机器翻译(nmt)模型也取得了很大程度上的进步。对于nmt来说,在干净的数据集上训练得到的模型是脆弱的,无法很好的应对不规则的输入。在面对这种不规则输入或者其他有害输入时,模型的性能可能会下降。然而,若使用不干净的数据集训练,得到的nmt模型可能会产生意料之外的错误,甚至会输出有害的结果。此外,多项研究表明,越先进的神经机器翻译模型具有更强的学习能力,这种学习能力不仅仅是针对正常数据的学习,同时也包括对错误数据的学习。针对nmt模型的这一缺陷,制作特定的样本对数据集进行投毒,可以使nmt模型产生特定的错误。

2、目前,在对nmt模型的投毒研究中,大多数人采用特定的方法手工制作投毒样本,并且还存在着投毒效果差、投毒量大、投毒结果不可知的缺陷。例如,基于单词的攻击,采用了对单词的字母进行增删改、对单词进行同义词或近义词替换等方法,就存在以上的各种缺点;基于短语的攻击,比较高级的做法是进行后门攻击,形成触发器,这种方法在投毒量以及投毒效果方面已经具有很好的效果,但同样没有采用自动构建投毒样本的方法。此外,由于目前研究采用的是人工构建投毒样本的方法,虽然会对攻击目标有着基本的上下文关系的理解,但不能高效的批量构建投毒样本,也无法形成系统的、有效的投毒样本生成器。

3、bert作为最优秀的神经机器翻译模型之一,在句法特征提取能力、语义特征提取能力、长距离特征捕获能力、任务综合特征抽取能力这四个方面都强于rnn和cnn。在seqtoseq任务中,得益于其使用的注意力机制,并且对输入输出序列的依赖项进行建模时无需考虑他们在序列中的距离,使得此模型对长距离依赖的处理具有非常的优秀性能。

4、在文本处理任务中,多粒度处理指的是将一句话分割成多个短语或单词。基于这个基础,我们使用文本向量训练工具,获取字符粒度、词粒度、短语粒度和句子粒度的特征。文本多粒度特征的概念是将不同粒度的文本特征融合在一起,以尽可能全面且深刻地表达文本潜在信息。然后,将这些特征输入分类器进行预测,从而提高关系抽取的精度。

5、在传统的文本分类任务中,通常选择句子粒度特征进行分类。然而,使用单一粒度的文本向量来表示文本可能会弱化关键信息,并且特征表达的层次不够丰富。融合不同粒度的特征可以强化和补充各个粒度特征的信息,使文本的表示更加合理。

6、图注意力网络将注意力机制引入图神经网络中,以有效的处理如数据。图注意力网络在每个节点对其邻居节点应用注意力权重,使得每个节点能够根据邻居节点的重要性调整其表示,这对于捕捉节点之间的复杂关系很有帮助。在文本处理中,可以将文本表示为图结构,其中的节点表示单词或者子词,边表示它们之间的关系。图注意力网络可以改善对文本信息的建模。

7、图注意力网络也具有处理不定长序列的优势,因此可以通过动态的计算注意力权重自适应的捕捉关键信息,这使得图注意力网络在处理文本是比传统窗口大小的方法更具有灵活性。

8、总的来说,在对抗性样本需求量较大的情况下,一般的投毒样本生成方法明显效率低下,无法实现系统有效的投毒样本生成器,并且依赖样本制作者主观意识,投毒样本的质量不能得到保证,所以不能很好的支持对抗性训练,也不能支持数据投毒。


技术实现思路

1、本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种针对中英神经机器翻译模型的数据投毒样本生成器,更高效的生成高质量的投毒样本。

2、为解决上述技术问题,本专利技术所采取的技术方案是:

3、一种针对中英神经机器翻译模型的数据投毒样本生成器,包括词关系分析模块和样本生成模块;

4、所述词关系分析模块基于多特征融合的关系抽取模型提供关系抽取分类的功能;词关系分析模块融合句法信息注意力机制与bert中间层语义信息提供关系抽取功能;

5、所述样本生成模块,由完成生成式任务的大模型构成,根据词关系分析模块得到的单词之间的关系进行样本的生成。

6、进一步地,所述词关系分析模块融合句法信息注意力机制与bert中间层语义信息提供关系抽取功能;首先利用句法信息图注意力网络获取包含句法信息的特征向量;利用两种池化策略集成的bert中间层的语义信息得到的整个句子的特征向量;还有将实体本身的词向量表示平均得到的特征向量;将三种特征向量拼接获取多特征融合的特征向量。

7、进一步地,所述词关系分析模块进行单词关系抽取的具体步骤为:

8、步骤1.1:使用预训练的依存关系解释器对句子序列进行依存关系分析,得到句子各个单词之间的依存关系;

9、步骤1.2:使用预训练模型的词向量作为句子序列中单词的向量表示;

10、步骤1.3:构建图,句子中的单词为图的节点,步骤1.1获取的单词之间的依存关系作为图的边;

11、步骤1.4:在步骤1.3的基础上利用基于句法信息的图注意力网络获取句子序列的特征向量;

12、步骤1.5:获取句子序列在bert中间层经过bert-attention与bert-concat策略处理得到的特征向量;

13、步骤1.6:获取句子序列经过bert处理后得到实体的平均的特征向量表示;

14、步骤1.7:将步骤1.4~1.6得到的特征向量进行融合得到多特征融合特征;

15、步骤1.8:将多特征融合特征输入到分类器中进行关系分类,获取该单词关系特征对应标签。

16、进一步地,所述步骤1.4中句子序列的特征向量获取方式为:

17、在第一个单词实体前后添加字符$;在第二个单词实体前后添加字符#;将预处理的句子序列输入bert预训练模型中,得到[cls]位置的特征向量hcls以及句子序列中每个单词包括[sep]的特征向量h1,h2,...,hn,hsep;

18、将步骤1.3构建的图输入到图注意力网络中,其中计算每个节点i与其相邻节点j的注意力权重公式为:

19、

20、其中,w是权重矩阵,a是权重参数向量,是节点i的邻居集合,leakyrelu是激活函数;

21、最终得到包含局部上下文语义信息的特征向量,计算公式为:

22、

23、其中,αij是节点i和节点j之间的注意力权重,σ是激活函数。

24、进一步地,所述步骤1.5中的bert-attention策略中,用[cls]表示整个句子序列的语义信息,bert不同层次关注序列不同级别的信息,注意力机制动态的学习对最终分类的贡献,使用点积注意力模型融合中间层的信息,具体方法为:

25、第一步,使用第i层的[cls]向量表示的函数计算第i层句子序列的特征向量对最终关系的表示的重要性;

26、第二步,对重要性值进行归一化得到第i层句子序列的特征向量的权重;

2本文档来自技高网...

【技术保护点】

1.一种针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:包括词关系分析模块和样本生成模块;

2.根据权利要求1所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述词关系分析模块融合句法信息注意力机制与BERT中间层语义信息提供关系抽取功能;首先利用句法信息图注意力网络获取包含句法信息的特征向量;利用两种池化策略集成的BERT中间层的语义信息得到的整个句子的特征向量;还有将实体本身的词向量表示平均得到的特征向量;将三种特征向量拼接获取多特征融合的特征向量。

3.根据权利要求2所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述词关系分析模块进行单词关系抽取的具体步骤为:

4.根据权利要求3所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述步骤1.4中句子序列的特征向量获取方式为:

5.根据权利要求4所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述步骤1.5中的BERT-Attention策略中,用[CLS]表示整个句子序列的语义信息,BERT不同层次关注序列不同级别的信息,注意力机制动态的学习对最终分类的贡献,使用点积注意力模型融合中间层的信息,具体方法为:

6.根据权利要求4所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述步骤1.5中的BERT-Concat策略使用concat函数链接所有BERT中间层的句子序列的表示hCLS,此过程表示为:

7.根据权利要求5或6所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述步骤1.6中,通过计算h0,...,hm的平均值得到第一个单词实体的特征向量计算hm+1,...,hj的平均值得到第二个单词实体的特征向量

8.根据权利要求1所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述样本生成模块进行样本的生成的具体方法为:

...

【技术特征摘要】

1.一种针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:包括词关系分析模块和样本生成模块;

2.根据权利要求1所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述词关系分析模块融合句法信息注意力机制与bert中间层语义信息提供关系抽取功能;首先利用句法信息图注意力网络获取包含句法信息的特征向量;利用两种池化策略集成的bert中间层的语义信息得到的整个句子的特征向量;还有将实体本身的词向量表示平均得到的特征向量;将三种特征向量拼接获取多特征融合的特征向量。

3.根据权利要求2所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述词关系分析模块进行单词关系抽取的具体步骤为:

4.根据权利要求3所述的针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:所述步骤1.4中句子序列的特征向量获取方式为:

5.根据权利要求4所述的针对中英神经机器翻译模型的数据投...

【专利技术属性】
技术研发人员:孙永佼路青周宪炜季航旭赵相国
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1