基于上下文信息筛选的篇章级神经机器翻译方法技术

技术编号:39326953 阅读:10 留言:0更新日期:2023-11-12 16:04
本发明专利技术涉及基于上下文信息筛选的篇章级神经机器翻译方法,属自然语言处理领域。本发明专利技术包括:一种新的基于上下文信息筛选的篇章翻译模型,该模型在Transformer的编码器上增加了句内约束注意力模块、选择注意力模块,在解码器上增加了交叉选择注意力模块,并通过门控机制完成信息的融合。本发明专利技术在进行篇章级神经机器翻译任务的时候,能够有效的对上下文进行筛选,有效提升了篇章级神经机器翻译的性能。有效提升了篇章级神经机器翻译的性能。有效提升了篇章级神经机器翻译的性能。

【技术实现步骤摘要】
基于上下文信息筛选的篇章级神经机器翻译方法


[0001]本专利技术涉及基于上下文信息筛选的篇章级神经机器翻译方法,属自然语言处理领域。

技术介绍

[0002]篇章上下文中存在大量的与当前句子、词汇翻译无关或弱相关的词汇,所以在篇章翻译中对篇章上下文信息进行筛选是必要的。而在现有方法中,少有工作针对篇章上下文信息进行筛选。
[0003]本专利技术提出了一种新的筛选上下文信息的方法,能够在整篇文档的上下文中筛选出与当前词汇翻译相关性更强的词。其核心思想是在Transformer模型的编码器中引入上下文筛选注意力模块。在上下文筛选注意力模块中,上下文语句和当前源语句直接连接,在编码源语句词汇时通过注意力分数的计算和掩码操作,逐步筛选出那些上下文语句中的强相关词,并通过门控机制将其融入源语句词汇的编码。

技术实现思路

[0004]本专利技术要解决的技术问题是:本专利技术提供一种基于上下文信息筛选的篇章级神经机器翻译方法,能够在整篇文档的上下文中筛选出与当前词汇翻译相关性更强的词,提升篇章翻译的效果。
[0005]本专利技术的技术方案是:基于上下文信息筛选的篇章级神经机器翻译方法,所述方法的具体步骤如下:
[0006]Step1、构建双语平行篇章语料;
[0007]Step2、使用工具对构建好的语料进行分词并添加句子标记;
[0008]Step3、使用构建好的句子级数据集训练句子级神经机器翻译模型;
[0009]Step4、使用构建好的语料在句子级神经机器翻译模型上微调篇章级神经机器翻译模型,用微调好的翻译模型进行翻译。
[0010]进一步地,所述Step1的具体步骤为:
[0011]使用整理好的双语篇章级对齐语料,并使用特殊符号<d>表示一个篇章的开始。
[0012]进一步地,所述Step2的具体步骤为:
[0013]Step2.1、利用Jieba分词工具对汉语语料进行分词,得到词粒度的汉语句子X,构建汉语词语表;
[0014]Step2.2、利用mosesdecoder工具对英语语料进行分词,得到子词粒度的英语句子Y构建英语词语表;
[0015]Step2.3、将构建好的平行文档数据集按照平行句对的方式切分保存,并以<s></s>表示一个句子的开始和结束。
[0016]进一步地,所述Step3中:使用构建好的句子级数据集在Transformer模型上进行训练。
[0017]进一步地,所述Step4包括:将训练好的Transformer的多头注意力的参数复制到篇章级神经机器翻译模型的多头注意力模块中;对基于上下文信息筛选的篇章级神经机器翻译模型进行训练。
[0018]进一步地,所述Step4的具体步骤如下:
[0019]Step4.1、使用训练好的句子级Transformer模型的多头注意力参数初始化篇章级神经机器翻译模型的多头注意力参数;
[0020]Step4.2、使用X={X1,X2,...,X
i
,...,X
n
}表示篇章文档,其中X
i
表示该文档的第i个词,n为整个文档的词汇总数,使用E
X
表示文档嵌入,则有:
[0021]E
X
=Emb(X)+Pos(X)(1)
[0022]其中Emb(X)和Pos(X)分别为文档X的词嵌入和位置嵌入,并将文档的嵌入分别作为句内约束注意力模块和选择注意力模块的输入;
[0023]Step4.3、针对文档嵌入,给文档中的每个词嵌入分配句子标签,句子标签从1开始,当前词汇会复制前一个词汇的句子标签;若前一个标签是</s>,则标签加1,最终K个句子组成的整个文档生成的句子标签的形式为:
[0024]Stags={1,...,1,2,...,2,3,...,3,...,K...,K}(2)
[0025]Stags为整个文档词汇的句子标签,Stags为1则词汇属于第一句话,通过Stags判断进行注意力计算的两个单词是否属于同一句话,若第i个词和第j个词对应的Stags不相等,则说明它们不在同一句话,需要舍去;
[0026]Step4.4、句内约束注意力通过句子标签和掩码操作将注意力仅仅约束在当前句子内部,首先根据句子标签生成掩码矩阵:
[0027][0028]其中Stags
i
和Stags
j
分别表示第i个词和第j个词的Stags,ISCAMask
i,j
表示掩码矩阵中第i行第j列的位置的值,如果该值为1,则注意力矩阵中的对应位置需要进行掩码操作;使用生成的掩码矩阵将多头注意力的一部分进行遮掩,即是句内约束注意力,在编码器中,对于源文档篇章嵌入E
X
有:
[0029][0030]其中ISCA(E
X
)表示ISCA模块对源文档篇章嵌入E
X
的处理输出,表示多头注意力模块,Q、K、V是进行注意力计算的基本元素,形式为张量,表示对篇章嵌入E
X
计算得到的Q、K、V;
[0031]在编码器的顶端,使用门控机制,将句内约束注意力与编码整个文档的多头注意力相融合,并将输出作为整个句内约束注意力模块的输出:
[0032][0033]OUT
ISCA
表示ISCA模块对篇章嵌入E
X
的处理输出,MHA(E
X
)表示多头注意力模块对篇章嵌入E
X
的处理输出,表示门控网络,其中N为编码器层数,这里设置6为最大层数;
[0034]Step4.5、在选择注意力模块中使用多头注意力,并对不同头的注意力分数进行平均;其中i表示文档中的第i个词,j表示文档中的第j个词,h为多头注意力的头数,MultiHeadAttention为多头注意力计算,E
Xi
和E
Xj
分别表示两个词的词嵌入,则第i个词与第j个词之间的注意力分数为:
[0035][0036]为了控制筛选的上下文词汇的比例,使用参数q作为控制上下文筛选百分比的超参数,k作为要保留的上下文词汇数量,那么,k和q的关系如公式(7)所示,以上下文的词汇总数作为筛选的基本数量,m为该词汇所在句子的词汇数;
[0037]k=(n

m)
×
q(7)
[0038]再使用TopK算法找出和当前词汇关联最大的k个词汇,其余舍去,对于源文档篇章嵌入E
X
,选择注意力网络的输出表示为:
[0039]OUT
SA
=MHA(E
X
).TopK(k)(8)
[0040]OUT
SA
表示选择注意力模块对篇章嵌入E
X
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、构建双语平行篇章语料;Step2、使用工具对构建好的语料进行分词并添加句子标记;Step3、使用构建好的句子级数据集训练句子级神经机器翻译模型;Step4、使用构建好的语料在句子级神经机器翻译模型上微调篇章级神经机器翻译模型,用微调好的翻译模型进行翻译。2.根据权利要求1所述的基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述Step1的具体步骤为:使用整理好的双语篇章级对齐语料,并使用特殊符号<d>表示一个篇章的开始。3.根据权利要求1所述的基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述Step2的具体步骤为:Step2.1、利用Jieba分词工具对汉语语料进行分词,得到词粒度的汉语句子X,构建汉语词语表;Step2.2、利用mosesdecoder工具对英语语料进行分词,得到子词粒度的英语句子Y构建英语词语表;Step2.3、将构建好的平行文档数据集按照平行句对的方式切分保存,并以<s></s>表示一个句子的开始和结束。4.根据权利要求1所述的基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述Step3中:使用构建好的句子级数据集在Transformer模型上进行训练。5.根据权利要求1所述的基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述Step4包括:将训练好的Transformer的多头注意力的参数复制到篇章级神经机器翻译模型的多头注意力模块中;对基于上下文信息筛选的篇章级神经机器翻译模型进行训练。6.根据权利要求1所述的基于上下文信息筛选的篇章级神经机器翻译方法,其特征在于:所述Step4的具体步骤如下:Step4.1、使用训练好的句子级Transformer模型的多头注意力参数初始化篇章级神经机器翻译模型的多头注意力参数;Step4.2、使用X={X1,X2,...,X
i
,...,X
n
}表示篇章文档,其中X
i
表示该文档的第i个词,n为整个文档的词汇总数,使用E
X
表示文档嵌入,则有:E
X
=Emb(X)+Pos(X)(1)其中Emb(X)和Pos(X)分别为文档X的词嵌入和位置嵌入,并将文档的嵌入分别作为句内约束注意力模块和选择注意力模块的输入;Step4.3、针对文档嵌入,给文档中的每个词嵌入分配句子标签,句子标签从1开始,当前词汇会复制前一个词汇的句子标签;若前一个标签是</s>,则标签加1,最终K个句子组成的整个文档生成的句子标签的形式为:Stags={1,...,1,2,...,2,3,...,3,...,K...,K}(2)Stags为整个文档词汇的句子标签,Stags为1则词汇属于第一句话,通过Stags判断进行注意力计算的两个单词是否属于同一句话,若第i个词和第j个词对应的Stags不相等,则
说明它们不在同一句话,需要舍去;Step4.4、句内约束注意力通过句子标签和掩码操作将注意力仅仅约束在当前句子内部,首先根据句子标签生成掩码矩阵:其中Stags
i
和Stags
j
分别表示第i个词和第j个词的Stags,ISCAMask
i,j
表示掩码矩阵中第i行第j列的位置的值,如果该值为1,则注意力矩阵中的对应位置需要进行掩码操作;使用生成的掩码矩阵将多头注意力的一部分进行遮掩,即是句内约束注意力,在编码器中,对于源文档篇章嵌入E
X
有:其中ISCA(E
X
)表示ISCA模块对源文档篇章嵌入E
X
的处理输出,表示多头注意力模块,Q、K、V是进行注意力计算的基本元素,形式为张量,表示对篇章嵌入E
X
计算得到的Q、K、V;在编码器的顶端,使用门控机制,将句内约束注意力与编码整个文档的多头注意力相融合,并将输出作为整个句内约束注意力模块的输出:OUT
ISCA
表示ISCA模块对篇章嵌入E
X
的处理输出,MHA(E
X
)表示多头注意力模块对篇章嵌入E
X
的处理输出,

表示门控网络,其中N为编码器层数,这里设置6为最大层数;Step4.5、在选择注意力模块中使用多头注意力,并对不同头的注意力分数进行平均;其中i表示文档中的第i个词,j表示文档中的第j个词,h为多头注意力的头数,MultiHeadAttention为多头注意力计算,E
Xi
和E
Xj
分别表...

【专利技术属性】
技术研发人员:郭军军张元赖华相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1