当前位置: 首页 > 专利查询>汪金玲专利>正文

一种基于层聚合的机器翻译算法及装置制造方法及图纸

技术编号:25690935 阅读:17 留言:0更新日期:2020-09-18 21:02
本发明专利技术涉及一种文本翻译的技术领域,揭露了一种基于层聚合的机器翻译算法及装置,算法包括:获取待翻译的中文语句,并对其进行预处理;ATransformer编码器基于多层信息抽取算法对预处理的语句进行多层语义特征信息抽取;ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列;判别模型D对翻译目标语言序列进行判定,若判定该翻译目标语言序列为翻译结果,则将所述翻译目标语言序列作为最终的机器翻译结果并输出,否则基于策略梯度算法对ATransformer模型进行参数更新,并将经预处理的待翻译语句输入到更新后的ATransformer编码器中,重新进行机器翻译算法的实现。本发明专利技术还提出一种基于层聚合的机器翻译算法的装置。本发明专利技术实现了对文本的智能翻译。

【技术实现步骤摘要】
一种基于层聚合的机器翻译算法及装置
本专利技术涉及文本翻译的
,尤其涉及一种基于层聚合的机器翻译算法及装置。
技术介绍
随着深度学习在自然语言处理领域的发展,机器翻译从早期的主要以浅层机器学习为核心的统计机器翻译的研究过渡到了以深度学习技术为核心的神经机器翻译研究。传统统计机器翻译的弊端在于,需要人类专家设计特征和相应的翻译过程,难以处理长距离依赖,还会因为数据离散带来严重的数据稀疏问题;而神经机器翻译模型通过结合注意力机制,有效缓解了长距离依赖,并且在大规模的平行语料库上,效果远优于统计机器翻译模型。然而,通过研究发现,神经机器翻译模型中的不同层能够捕获不同类型的语法和语义信息,现有的神经机器翻译模型仅利用了模型的末层信息,将末层信息作为整个网络对输入的总结,缺乏对中间层传播的信息的利用,同时,现有的神经机器翻译模型通常采用基于最大似然原理的单模型训练方法,即以当前翻译模型为训练目标,通过最大化以源语言为条件来生成目标语言翻译的条件概率进行训练,很难保证翻译结果的自然性和准确性。鉴于此,在能够深度捕捉模型层与层之间的特征信息且考虑层与层之间的关系的同时,如何有效改善机器翻译的质量,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种基于层聚合的机器翻译算法及装置,在能够深度捕捉模型层与层之间的特征信息且考虑层与层之间的关系的同时,能够有效改善机器翻译的质量。为实现上述目的,本专利技术提供的一种基于层聚合的机器翻译算法,包括:获取待翻译的中文语句,并对其进行文本预处理操作;将所述经预处理的语句输入到预设的ATransformer编码器,所述ATransformer编码器基于多层信息抽取算法对语句进行多层语义特征信息抽取;将所述多层语义特征信息输入到预设的ATransformer解码器中,所述预设的ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列;将翻译目标语言序列输入到预训练的判别模型D中,所述判别模型D对翻译目标语言序列进行判定;若判定该翻译目标语言序列为翻译结果,则将所述翻译目标语言序列作为最终的机器翻译结果并输出,否则基于策略梯度算法对ATransformer模型进行参数更新,并将经预处理的待翻译语句输入到更新后的ATransformer编码器中,重新进行机器翻译算法的实现。可选地,所述文本预处理操作,包括:利用已经构建好的停用词表和文本数据中的词语进行一一匹配,匹配成功则将该词删除;通过构建前缀字典、自定义字典来找出字串中所有可能的词;及根据所找出的所有可能的词,其中每个词对应图中的一条有向边,并赋给相应的边长权值,然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列依次为第1,第2,…,第i,…,第N的路径集合作为相应的粗分结果集,所述粗分结果集即为待翻译中文语句的分词结果集。可选地,所述ATransformer编码器基于多层信息抽取算法对语句进行多层语义特征信息抽取,包括:ATransformer编码器中第一个模块的主层接收经预处理的待翻译语句,主层中的第一个子层对待翻译语句基于自注意力机制进行计算,并将计算结果输入主层中的第二个子层第二个子层基于前馈全连接神经网络对上述输出结果进行残差连接;模块中的合并层将两个子层的输出结果使用Joint(·)联合函数进行合并,并将合并结果作为下一模块的输入值;ATransformer编码器中的其他模块依次接收上一模块的输出值,并将上一模块的输出值作为当前模块的输入值进行计算输出,最后一个模块的输出值即为所提取的多层语义特征信息,所述ATransformer编码器从而提取了12层的特征信息并进行特征融合,整个网络结构从最浅、最小的结构开始,迭代合并成了更深、更大的层级结构;所述基于自注意力机制的计算公式为:其中:LayerNorm(·)为归一化函数;i为编码器中第i个模块;attention(·)是self-attention机制,dk为待翻译语句的维数;为第i-1个模块得到的三个向量参数,分别表示待翻译语句查询、键、以及值的权重,当i=1时,即为本专利技术预设的三个向量参数;为第i-1个模块主层中第二个子层的输出值,当i=1时,即为所述经预处理的待翻译语句;第二个子层基于前馈全连接神经网络对上述输出结果进行残差连接的计算公式为:其中:FC(·)为前馈全连接网络;WE为预设的编码器训练权重;bE为预设的编码器偏置参数;模块的合并层将主层中子层的输出结果进行合并,并输出结果Li,其中i表示第i个模块,同时将合并后的融合信息作为下一个模块的输入,这样经由6个模块,实现了对12层信息的融合,并将最终信息融合的结果作为多层语义特征信息;及当i=1时,子层输出结果进行合并的公式为:其中:为第一个模块第一子层的输出结果;为第一个模块第二子层的输出结果;Joint(·)为联合函数,Joint(a,b)=LayerNorm(FC([a;b])+a+b);当i>1时,子层输出结果进行合并的公式为:其中:为第i个模块主层的第一个子层;为第i个模块主层的第二个子层;Li-1为第i-1个模块合并层的输出结果;Joint(·)为联合函数,Joint(a,b,c)=LayerNorm(FC([a;b;c])+a+b+c)。可选地,所述预设的ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列,包括:ATransformer解码器由3个相同模块堆叠而成,每一个模块分为多头注意机制层、DSL1子层以及DSL2子层;ATransformer解码器的第一个模块接收多层语义特征信息,模块中的多头注意机制层、DSL1子层以及DSL2子层依次对多层语义特征信息进行输出计算,并将DSL2子层的输出结果作为下一个模块的输入;ATransformer解码器中的其他模块接收上一模块的输出值,并将上一模块的输出值作为当前模块的输入值进行计算输出,最后一个模块中DSL2子层的输出值即为最终翻译得到翻译目标语言序列;所述解码器模块的多头注意机制层的计算公式为:其中:LayerNorm(·)为归一化函数;attention(·)是self-attention机制,dk为待翻译语句的维数;为第i-1个解码器模块得到的三个向量参数,分别表示待翻译语句查询、键、以及值的权重,当i=1时,即为编码器中最后一个模块训练得到三个向量参数;为第i-1个解码器模块DSL2子层的输出值,当i=1时,即为所述多层语义特征信息;所述解码器模块的DSL1子层的计算公式为:其中:KE,VE为编码器最后一个模块得本文档来自技高网...

【技术保护点】
1.一种基于层聚合的机器翻译算法,其特征在于,所述方法包括:/n获取待翻译的中文语句,并对其进行文本预处理操作;/n将所述经预处理的语句输入到预设的ATransformer编码器,所述ATransformer编码器基于多层信息抽取算法对语句进行多层语义特征信息抽取;/n将所述多层语义特征信息输入到预设的ATransformer解码器中,所述预设的ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列;/n将翻译目标语言序列输入到预训练的判别模型D中,所述判别模型D对翻译目标语言序列进行判定;/n若判定该翻译目标语言序列为翻译结果,则将所述翻译目标语言序列作为最终的机器翻译结果并输出,否则基于策略梯度算法对ATransformer模型进行参数更新,并将经预处理的待翻译语句输入到更新后的ATransformer编码器中,重新进行机器翻译算法的实现。/n

【技术特征摘要】
1.一种基于层聚合的机器翻译算法,其特征在于,所述方法包括:
获取待翻译的中文语句,并对其进行文本预处理操作;
将所述经预处理的语句输入到预设的ATransformer编码器,所述ATransformer编码器基于多层信息抽取算法对语句进行多层语义特征信息抽取;
将所述多层语义特征信息输入到预设的ATransformer解码器中,所述预设的ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列;
将翻译目标语言序列输入到预训练的判别模型D中,所述判别模型D对翻译目标语言序列进行判定;
若判定该翻译目标语言序列为翻译结果,则将所述翻译目标语言序列作为最终的机器翻译结果并输出,否则基于策略梯度算法对ATransformer模型进行参数更新,并将经预处理的待翻译语句输入到更新后的ATransformer编码器中,重新进行机器翻译算法的实现。


2.如权利要求1所述的基于层聚合的机器翻译算法,其特征在于,所述文本预处理操作,包括:
利用已经构建好的停用词表和文本数据中的词语进行一一匹配,匹配成功则将该词删除;
通过构建前缀字典、自定义字典来找出字串中所有可能的词;及
根据所找出的所有可能的词,其中每个词对应图中的一条有向边,并赋给相应的边长权值,然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列依次为第1,第2,…,第i,…,第N的路径集合作为相应的粗分结果集,所述粗分结果集即为待翻译中文语句的分词结果集。


3.如权利要求2所述的基于层聚合的机器翻译算法,其特征在于,所述ATransformer编码器基于多层信息抽取算法对语句进行多层语义特征信息抽取,包括:
ATransformer编码器由6个相同模块堆叠而成,每一个模块分为主层和合并层,每一个主层具有两个子层,第一个子层含有自注意力机制,第二个子层是一个全连接的前馈网络层,合并层使用Joint(·)联合函数将子层结果进行合并,并将合并结果作为下一模块的输出值;
ATransformer编码器中第一个模块的主层接收经预处理的待翻译语句,主层中的第一个子层对待翻译语句基于自注意力机制进行计算,并将计算结果输入主层中的第二个子层第二个子层基于前馈全连接神经网络对上述输出结果进行残差连接;模块中的合并层将两个子层的输出结果使用Joint(·)联合函数进行合并,并将合并结果作为下一模块的输入值;
ATransformer编码器中的其他模块依次接收上一模块的输出值,并将上一模块的输出值作为当前模块的输入值进行计算输出,最后一个模块的输出值即为所提取的多层语义特征信息,所述ATransformer编码器从而提取了12层的特征信息并进行特征融合,整个网络结构从最浅、最小的结构开始,迭代合并成了更深、更大的层级结构;
所述子层中基于自注意力机制的计算公式为:



其中:
LayerNorm(·)为归一化函数;
i为编码器中第i个模块;
attention(·)是self-attention机制,dk为所输入待翻译语句的维数;

为第i-1个模块得到的三个向量参数,分别表示待翻译语句查询、键、以及值的权重,当i=1时,即为本发明预设的三个向量参数;

为第i-1个模块主层中第二个子层的输出值,当i=1时,即为所述经预处理的待翻译语句;
所述子层中基于前馈全连接神经网络进行残差连接的计算公式为:






其中:
FC(·)为前馈全连接网络;
WE为预设的编码器训练权重;
bE为预设的编码器偏置参数。


4.如权利要求3所述的基于层聚合的机器翻译算法,其特征在于,所述预设的ATransformer解码器对多层语义特征信息进行解码,输出翻译目标语言序列,包括:
ATransformer解码器由3个相同模块堆叠而成,每一个模块分为多头注意机制层、DSL1子层以及DSL2子层;
ATransformer解码器的第一个模块接收多层语义特征信息,模块中的多头注意机制层、DSL1子层以及DSL2子层依次对多层语义特征信息进行输出计算,并将DSL2子层的输出结果作为下一个模块的输入;
ATransformer解码器中的其他模块接收上一模块的输出值,并将上一模块的输出值作为当前模块的输入值进行计算输出,最后一个模块中DSL2子层的输出值即为最终翻译得到翻译目标语言序列;
所述解码器模块的多头注意机制层的计算公式为:

...

【专利技术属性】
技术研发人员:汪金玲
申请(专利权)人:汪金玲
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1