基于层预测的语言翻译的方法、设备、装置和介质制造方法及图纸

技术编号：31912342 阅读：13 留言：0更新日期：2022-01-15 12:53

根据本公开的实现方式，提供了基于层预测的语言翻译的方法、设备、装置和介质。在一种方法中，在翻译模型的解码器的多个隐式层中的第一隐式层处，基于训练数据中包括的输入数据的编码，确定与第一隐式层相关联的第一隐式状态，训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据。确定与输出数据相关联的预测信息。基于第一隐式状态和预测信息，生成更新的第一隐式状态。向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态，以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。以此方式，通过向每个隐式层提供预测信息，可以以更为有效和准确的方式实现翻译模型。和准确的方式实现翻译模型。和准确的方式实现翻译模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于层预测的语言翻译的方法、设备、装置和介质

[0001]本公开的示例性实现方式总体涉及计算机领域，特别地涉及基于层预测的语言翻译的方法、设备、装置和计算机可读存储介质。

技术介绍

[0002]语言翻译涉及将以源语言表示的内容翻译为以目标语言表示的内容。目前已经提出了多种翻译方案，然而已有技术方案的翻译速度和准确性并不令人满意。因而，期望能够以更为有效和准确的方式来执行语言翻译。

技术实现思路

[0003]根据本公开的示例性实现方式，提供了一种基于层预测的语言翻译的方案。
[0004]在本公开的第一方面，提供了一种基于层预测的语言翻译的方法。在该方法中，在翻译模型的解码器的多个隐式层中的第一隐式层处，基于训练数据中包括的输入数据的编码，确定与第一隐式层相关联的第一隐式状态，训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据，翻译模型用于将输入数据翻译为输出数据。确定与输出数据相关联的预测信息。基于第一隐式状态和预测信息，生成更新的第一隐式状态。向多个隐式层中的第一隐式层之后的第二隐式层输出更新的第一隐式状态，以使得更新的第一隐式状态被作为与第二隐式层相关联的第二隐式状态。
[0005]在本公开的第二方面，提供了一种电子设备，包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使设备执行动作。该动作包括：在翻译模型的解码器的多个隐式层中的第一隐式层处，基于训练数据中包括的输入数...

【技术保护点】

【技术特征摘要】
1.一种基于层预测的语言翻译的方法，包括：在翻译模型的解码器的多个隐式层中的第一隐式层处，基于训练数据中包括的输入数据的编码，确定与所述第一隐式层相关联的第一隐式状态，所述训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据，所述翻译模型用于将所述输入数据翻译为所述输出数据；确定与所述输出数据相关联的预测信息；基于所述第一隐式状态和所述预测信息，生成更新的第一隐式状态；以及向所述多个隐式层中的所述第一隐式层之后的第二隐式层输出所述更新的第一隐式状态，以使得所述更新的第一隐式状态被作为与所述第二隐式层相关联的第二隐式状态。2.根据权利要求1所述的方法，其中确定与所述第一隐式层相关联的所述第一隐式状态包括：基于所述输出数据的长度确定与所述第一隐式状态相关联的多个位置；以及确定所述第一隐式状态中的分别与所述多个位置相对应的多个部分。3.根据权利要求2所述的方法，进一步包括基于以下来训练所述翻译模型：生成与所述第一隐式层相关联的第一训练目标；以及利用所述输入数据和所述输出数据来训练所述翻译模型，以使得所述第一训练目标满足第一预定条件。4.根据权利要求3所述的方法，其中生成与所述第一隐式层相关联的所述第一训练目标包括：确定所述输出数据与基于所述第一隐式状态的预测之间的差异；以及基于所述差异来生成所述第一训练目标。5.根据权利要求3所述的方法，其中训练所述翻译模型进一步包括：生成与所述第二隐式层相关联的第二训练目标；以及利用所述输入数据和所述输出数据来训练所述翻译模型，以使得所述第二训练目标满足第二预定条件。6.根据权利要求5所述的方法，其中训练所述翻译模型进一步包括：基于所述第一训练目标和所述第二训练目标确定所述翻译模型的训练目标；以及利用所述输入数据和所述输出数据来训练所述翻译模型，以使得所述训练目标满足预定条件。7.根据权利要求2所述的方法，其中确定与所述输出数据相关联的所述预测信息包括：针对所述多个位置中的给定位置，基于以下任一项来确定针对所述给定位置的预测信息：所述翻译模型；以及所述输出数据中的与所述给定位置相对应的真值数据。8.根据权利要求7所述的方法，其中生成所述更新的第一隐式状态包括：基于所述第一隐式状态中的与所述给定位置相对应的部分和针对所述给定位置的预测信息，生成所述更新的第一隐式状态中的与所述给定位置相对应的部分。9.根据权利要求7所述的方法，其中生成所述更新的第一隐式状态包括：获取基于所述翻译模型确定的所述预测信息和基于所述输出数据确定的所述预测信息的混合比例；以及
基于所述混合比例、所述第一隐式状态和所述预测信息，生成所述更新的第一隐式状态。10.根据权利要求1所述的方法，进一步包括：基于所述第二隐式状态和所述预测信息，生成更新的第二隐式状态；以及向所述多个隐式层中的所述第二隐式层之后的第三隐式层输出所述更新的第二隐式状态，以使得所述更新的第二隐式状态被作为与所述第三隐式层相关联的第三隐式状态。11.一种电子设备，包括：至少一个处理单元；以及至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作：在翻译模型的解码器的多个隐式层中的第一隐式层处，基于训练数据中包括的输入数据的编码，确定与所述第一隐式层相关联的第一隐式状态，所述训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据，所述翻译模型用于将所述输入数据翻译为所述输出数据；确定与所述输出数据相关联的预测信息；基于所述第一隐式状态和所述预测信息，生成更新的第一隐式状态；以及向所述多个隐式层中的所述第一隐式层之后的第二隐式层输出所述更新的第一隐式状态，以使得所述更新的第一隐式状态被作为与所述第二隐式层相关联的第二隐式状态。12.根据权利要求11所述的设备，其中确定与所述第一隐式层相关联的所述第一隐式状态包括：基于所述输出数据的长度确定与所述第一隐式状态相关联的多个位置；以及确定所述第一隐式状态中的分别与所述多个位置相对应的多个部分。13.根据权利要求12所述的设备，其中所述动作进一步包括基于以下来训练所述翻译模型：生成与所述第一隐式层相关联的第一训练目标；以及利用所述输入数据和所述输出数据来训练所述翻译模型，以使得所述第一训练目标满足第一预定条件。14.根据权利要求13所述的设备，其中生成与所述第一隐式层相关联的所述第一训练目标包括：确定所述输出数据与基于所述第一隐式状态的预测之间的差异；以及基于所述差异来生成所述第一训练目标。15.根据权利要求13所述的设备，其中训练所述翻译模型进一步包括：生成与所述第二隐式层相关联的第二训练目标；以及利用所述输入数据和所述输出数据来训练所述翻译模型，以使得所述第二训练目标满足第二预定条件。16.根据权利要求15所述的设备，其中训练所述翻译模型进一步包括：基于所述第一训练目标和所述第二训练目标确定所述翻译模型的训练目标；以及利用所述输入数据和所述输出数据来...

【专利技术属性】
技术研发人员：周浩，黄晨阳，牟力立，李磊，奥斯马尔，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人