基于层预测的语言翻译的方法、设备、装置和介质制造方法及图纸

技术编号:31912342 阅读:13 留言:0更新日期:2022-01-15 12:53
根据本公开的实现方式,提供了基于层预测的语言翻译的方法、设备、装置和介质。在一种方法中,在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与第一隐式层相关联的第一隐式状态,训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据。确定与输出数据相关联的预测信息。基于第一隐式状态和预测信息,生成更新的第一隐式状态。向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态,以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。以此方式,通过向每个隐式层提供预测信息,可以以更为有效和准确的方式实现翻译模型。和准确的方式实现翻译模型。和准确的方式实现翻译模型。

【技术实现步骤摘要】
基于层预测的语言翻译的方法、设备、装置和介质


[0001]本公开的示例性实现方式总体涉及计算机领域,特别地涉及基于层预测的语言翻译的方法、设备、装置和计算机可读存储介质。

技术介绍

[0002]语言翻译涉及将以源语言表示的内容翻译为以目标语言表示的内容。目前已经提出了多种翻译方案,然而已有技术方案的翻译速度和准确性并不令人满意。因而,期望能够以更为有效和准确的方式来执行语言翻译。

技术实现思路

[0003]根据本公开的示例性实现方式,提供了一种基于层预测的语言翻译的方案。
[0004]在本公开的第一方面,提供了一种基于层预测的语言翻译的方法。在该方法中,在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与第一隐式层相关联的第一隐式状态,训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,翻译模型用于将输入数据翻译为输出数据。确定与输出数据相关联的预测信息。基于第一隐式状态和预测信息,生成更新的第一隐式状态。向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态,以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。
[0005]在本公开的第二方面,提供了一种电子设备,包括:至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令在由至少一个处理单元执行时使设备执行动作。该动作包括:在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与第一隐式层相关联的第一隐式状态,训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,翻译模型用于将输入数据翻译为输出数据;确定与输出数据相关联的预测信息;基于第一隐式状态和预测信息,生成更新的第一隐式状态;以及向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态,以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。
[0006]在本公开的第三方面,提供了一种基于层预测的语言翻译的方法。在该方法中,接收以源语言表示的待翻译数据的编码,确定与翻译模型中的多个隐式层中的第一隐式层相关联的第一隐式状态,翻译模型用于将以源语言表示的待翻译数据翻译为以目标语言表示的翻译结果。基于第一隐式状态确定与翻译结果相关联的预测信息。基于第一隐式状态和预测信息,生成更新的第一隐式状态更新。向多个隐式层的第一隐式层之后的第二隐式层,输入更新的第一隐式状态,以使得翻译模型将更新的第一隐式状态作为与第二隐式层相关联的第二隐式状态。
[0007]在本公开的第四方面,提供了一种电子设备,包括:至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单
元执行的指令,指令在由至少一个处理单元执行时使设备执行动作。该动作包括:接收以源语言表示的待翻译数据的编码,确定与翻译模型中的多个隐式层中的第一隐式层相关联的第一隐式状态,翻译模型用于将以源语言表示的待翻译数据翻译为以目标语言表示的翻译结果;基于第一隐式状态确定与翻译结果相关联的预测信息;基于第一隐式状态和预测信息,生成更新的第一隐式状态更新;以及向多个隐式层的第一隐式层之后的第二隐式层,输出更新的第一隐式状态,以使得翻译模型将更新的第一隐式状态作为与第二隐式层相关联的第二隐式状态。
[0008]在本公开的第五方面,提供了一种基于层预测的语言翻译的装置,包括:确定单元,配置用于在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与第一隐式层相关联的第一隐式状态,训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,翻译模型用于将输入数据翻译为输出数据;预测单元,配置用于确定与输出数据相关联的预测信息;生成单元,配置用于基于第一隐式状态和预测信息,生成更新的第一隐式状态;以及输出单元,配置用于向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态,以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。
[0009]在本公开的第六方面,提供了一种基于层预测的语言翻译的装置,包括:接收单元,配置用于接收以源语言表示的待翻译数据的编码,确定与翻译模型中的多个隐式层中的第一隐式层相关联的第一隐式状态,翻译模型用于将以源语言表示的待翻译数据翻译为以目标语言表示的翻译结果;确定单元,配置用于基于第一隐式状态确定与翻译结果相关联的预测信息;生成单元,配置用于基于第一隐式状态和预测信息,生成更新的第一隐式状态更新;以及输出向多个隐式层的第一隐式层之后的第二隐式层,输出更新的第一隐式状态,以使得翻译模型将更新的第一隐式状态作为与第二隐式层相关联的第二隐式状态。
[0010]在本公开的第七方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。
[0011]在本公开的第八方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第三方面的方法。
[0012]应当理解,本
技术实现思路
部分中所描述的内容并非旨在限定本公开的实现方式的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
[0013]在下文中,结合附图并参考以下详细说明,本公开各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0014]图1示出了本公开的实现方式能够在其中实现的示例环境的框图;
[0015]图2示出了根据本公开的一些实现方式的用于将源语言翻译为目标语言的翻译模型的框图;
[0016]图3示出了根据本公开的一些实现方式的翻译模型中的解码器的框图;
[0017]图4示出了根据本公开的一些实现方式的用于训练解码器的训练过程的框图;
[0018]图5示出了根据本公开的一些实现方式的向隐式层中的各个节点提供的预测信息的框图;
[0019]图6示出了根据本公开的一些实现方式的在解码器中的隐式层中的节点的框图;
[0020]图7示出了根据本公开的一些实现方式的基于层预测的语言翻译的方法的流程图;
[0021]图8示出了根据本公开的一些实现方式的基于层预测的语言翻译的方法的流程图;
[0022]图9A示出了根据本公开的一些实现方式的基于层预测的语言翻译的装置的框图;
[0023]图9B示出了根据本公开的一些实现方式的基于层预测的语言翻译的装置的框图;以及
[0024]图10示出了能够实施本公开的多个实现方式的设备的框图。
具体实施方式
[0025]下面将参照附图更详细地描述本公开的实现方式。虽然附图中示出了本公开的某些实现方式,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反,提供这些实现方式是为了更加透彻和完整地理解本公开。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层预测的语言翻译的方法,包括:在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与所述第一隐式层相关联的第一隐式状态,所述训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,所述翻译模型用于将所述输入数据翻译为所述输出数据;确定与所述输出数据相关联的预测信息;基于所述第一隐式状态和所述预测信息,生成更新的第一隐式状态;以及向所述多个隐式层中的所述第一隐式层之后的第二隐式层输出所述更新的第一隐式状态,以使得所述更新的第一隐式状态被作为与所述第二隐式层相关联的第二隐式状态。2.根据权利要求1所述的方法,其中确定与所述第一隐式层相关联的所述第一隐式状态包括:基于所述输出数据的长度确定与所述第一隐式状态相关联的多个位置;以及确定所述第一隐式状态中的分别与所述多个位置相对应的多个部分。3.根据权利要求2所述的方法,进一步包括基于以下来训练所述翻译模型:生成与所述第一隐式层相关联的第一训练目标;以及利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第一训练目标满足第一预定条件。4.根据权利要求3所述的方法,其中生成与所述第一隐式层相关联的所述第一训练目标包括:确定所述输出数据与基于所述第一隐式状态的预测之间的差异;以及基于所述差异来生成所述第一训练目标。5.根据权利要求3所述的方法,其中训练所述翻译模型进一步包括:生成与所述第二隐式层相关联的第二训练目标;以及利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第二训练目标满足第二预定条件。6.根据权利要求5所述的方法,其中训练所述翻译模型进一步包括:基于所述第一训练目标和所述第二训练目标确定所述翻译模型的训练目标;以及利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述训练目标满足预定条件。7.根据权利要求2所述的方法,其中确定与所述输出数据相关联的所述预测信息包括:针对所述多个位置中的给定位置,基于以下任一项来确定针对所述给定位置的预测信息:所述翻译模型;以及所述输出数据中的与所述给定位置相对应的真值数据。8.根据权利要求7所述的方法,其中生成所述更新的第一隐式状态包括:基于所述第一隐式状态中的与所述给定位置相对应的部分和针对所述给定位置的预测信息,生成所述更新的第一隐式状态中的与所述给定位置相对应的部分。9.根据权利要求7所述的方法,其中生成所述更新的第一隐式状态包括:获取基于所述翻译模型确定的所述预测信息和基于所述输出数据确定的所述预测信息的混合比例;以及
基于所述混合比例、所述第一隐式状态和所述预测信息,生成所述更新的第一隐式状态。10.根据权利要求1所述的方法,进一步包括:基于所述第二隐式状态和所述预测信息,生成更新的第二隐式状态;以及向所述多个隐式层中的所述第二隐式层之后的第三隐式层输出所述更新的第二隐式状态,以使得所述更新的第二隐式状态被作为与所述第三隐式层相关联的第三隐式状态。11.一种电子设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作:在翻译模型的解码器的多个隐式层中的第一隐式层处,基于训练数据中包括的输入数据的编码,确定与所述第一隐式层相关联的第一隐式状态,所述训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,所述翻译模型用于将所述输入数据翻译为所述输出数据;确定与所述输出数据相关联的预测信息;基于所述第一隐式状态和所述预测信息,生成更新的第一隐式状态;以及向所述多个隐式层中的所述第一隐式层之后的第二隐式层输出所述更新的第一隐式状态,以使得所述更新的第一隐式状态被作为与所述第二隐式层相关联的第二隐式状态。12.根据权利要求11所述的设备,其中确定与所述第一隐式层相关联的所述第一隐式状态包括:基于所述输出数据的长度确定与所述第一隐式状态相关联的多个位置;以及确定所述第一隐式状态中的分别与所述多个位置相对应的多个部分。13.根据权利要求12所述的设备,其中所述动作进一步包括基于以下来训练所述翻译模型:生成与所述第一隐式层相关联的第一训练目标;以及利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第一训练目标满足第一预定条件。14.根据权利要求13所述的设备,其中生成与所述第一隐式层相关联的所述第一训练目标包括:确定所述输出数据与基于所述第一隐式状态的预测之间的差异;以及基于所述差异来生成所述第一训练目标。15.根据权利要求13所述的设备,其中训练所述翻译模型进一步包括:生成与所述第二隐式层相关联的第二训练目标;以及利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第二训练目标满足第二预定条件。16.根据权利要求15所述的设备,其中训练所述翻译模型进一步包括:基于所述第一训练目标和所述第二训练目标确定所述翻译模型的训练目标;以及利用所述输入数据和所述输出数据来...

【专利技术属性】
技术研发人员:周浩黄晨阳牟力立李磊奥斯马尔
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1