一种翻译模型的训练方法、翻译方法以及设备技术

技术编号:27936799 阅读:36 留言:0更新日期:2021-04-02 14:17
本申请公开了一种翻译模型的训练方法,涉及人工智能领域,包括:获取训练语句的词向量序列。通过第一翻译模型的编码器获取词向量序列的第一编码序列,第一翻译模型的编码器采用单向编码器。通过第二翻译模型的编码器获取词向量序列的第二编码序列,第二翻译模型的编码器采用双向编码器。将第一编码序列输入至第一翻译模型的解码器中,以获取第一预测结果。根据第一预测结果和训练语句对应的目标翻译结果获取第一损失值。根据第一损失值、第一编码序列和第二编码序列之间的距离更新第一翻译模型。通过本申请提供的方案,可以提升翻译模型的性能。

【技术实现步骤摘要】
一种翻译模型的训练方法、翻译方法以及设备
本申请涉及人工智能
,具体涉及一种翻译模型的训练方法、翻译方法以及设备。
技术介绍
人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。随着人工智能技术的不断发展,神经网络机器翻译(neuralmachinetranslation,NMT)取得了快速发展,并超越了传统的统计机器翻译,成为主流的机器翻译技术。然而,目前NMT针对同声传译、实时字幕等需要同步翻译的场景,翻译效果不佳,通常表现为翻译结果输出的延迟、翻译的准确度不高。
技术实现思路
本申请实施例提供一种翻译模型的训练方法、翻译方法以及设备,以提升翻译质量。本文档来自技高网...

【技术保护点】
1.一种翻译模型的训练方法,其特征在于,包括:/n获取训练语句的词向量序列,所述词向量序列包括所述训练语句中至少一个词的词向量;/n通过第一翻译模型的编码器获取所述词向量序列的第一编码序列,所述第一翻译模型的编码器采用单向编码器,所述第一编码序列包括所述至少一个词向量的第一编码向量;/n通过第二翻译模型的编码器获取所述词向量序列的第二编码序列,所述第二翻译模型的编码器采用双向编码器,所述第二编码序列包括所述至少一个词向量的第二编码向量;/n将所述第一编码序列输入至所述第一翻译模型的解码器中,以获取第一预测结果;/n根据所述第一预测结果和所述训练语句对应的目标翻译结果获取第一损失值;/n根据所述...

【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,包括:
获取训练语句的词向量序列,所述词向量序列包括所述训练语句中至少一个词的词向量;
通过第一翻译模型的编码器获取所述词向量序列的第一编码序列,所述第一翻译模型的编码器采用单向编码器,所述第一编码序列包括所述至少一个词向量的第一编码向量;
通过第二翻译模型的编码器获取所述词向量序列的第二编码序列,所述第二翻译模型的编码器采用双向编码器,所述第二编码序列包括所述至少一个词向量的第二编码向量;
将所述第一编码序列输入至所述第一翻译模型的解码器中,以获取第一预测结果;
根据所述第一预测结果和所述训练语句对应的目标翻译结果获取第一损失值;
根据所述第一损失值、所述第一编码序列和所述第二编码序列之间的距离更新所述第一翻译模型。


2.根据权利要求1所述的训练方法,其特征在于,还包括:
将所述第二编码序列输入至所述第二翻译模型的解码器中,以获取第二预测结果;
根据所述第二预测结果和所述训练语句对应的目标翻译结果获取第二损失值;
所述根据所述第一损失值、所述第一编码序列和所述第二编码序列之间的距离更新所述第一翻译模型,包括:
根据所述第一损失值、所述第二损失值、所述第一编码序列和所述第二编码序列之间的距离更新所述第一翻译模型。


3.根据权利要求2所述的训练方法,其特征在于,还包括:
根据所述第一损失值、所述第二损失值、所述第一编码序列和所述第二编码序列之间的距离更新所述第二翻译模型。


4.根据权利要求1至3任一项所述的训练方法,其特征在于,所述通过第一翻译模型的编码器获取所述词向量序列的第一编码序列,包括:
通过所述第一翻译模型的编码器根据第一位置信息和第二位置信息对所述词向量序列中的每个词向量进行编码,以获取所述每个词向量的第一编码向量,所述第一位置信息包括所述每个词向量在所述词向量序列中的位置信息,所述第二位置信息包括所述每个词向量与第一词向量在所述词向量序列中的相对位置信息,所述第一词向量包括所述词向量序列中在所述每个词向量之前的至少一个词向量,所述第一编码序列包括所述每个词向量的第一编码向量。


5.根据权利要求4所述的训练方法,其特征在于,所述第一词向量包括所述词向量序列中在所述每个词向量的之前的所有词向量。


6.根据权利要求4或5所述的训练方法,其特征在于,还包括:
根据第二词向量、所述每个词向量的第一编码向量获取所述每个词向量的第三编码向量,所述第二词向量包括所述词向量序列中在所述每个词向量之后的至少一个词向量;
所述将所述第一编码序列输入至所述第一翻译模型的解码器中,以获取第一预测结果,包括:
将所述第一编码序列、所述第三编码序列输入至所述第一翻译模型的解码器中,以获取所述第一预测结果,其中,所述第三编码序列包括所述每个词向量的第三编码向量。


7.根据权利要求6所述的训练方法,其特征在于,所述第一翻译模型的解码器包括n个网络层,所述n个网络层顺次连接,所述n为大于1的正整数,前n-1个所述网络层的输入为所述第一编码序列,第n个所述网络层的输入为所述第三编码序列,所述第一预测结果根据所述第n个网络层的输出确定。


8.根据权利要求1至7任一项所述的训练方法,其特征在于,所述通过第二翻译模型的编码器获取所述词向量序列的第二编码序列,包括:
通过所述第二翻译模型的编码器根据第三位置信息和第四位置信息对所述词向量序列中每个词向量进行编码,以获取所述每个词向量的第二编码向量,所述第三位置信息包括所述每个词向量在所述词向量序列中的位置信息,所述第四位置信息包括所述每个词向量与第三词向量在所述词向量序列中的相对位置信息,所述第三词向量包括所述词向量序列中在所述每个词向量之前的至少一个词向量以及所述词向量序列中在所述每个词向量之后的至少一个词向量,所述第二编码序列包括所述每个词向量的第二编码向量。


9.根据权利要求8所述的训练方法,其特征在于,所述第三词向量包括所述词向量序列中在所述每个词向量之前的所有词向量以及所述词向量序列中在所述每个词向量之后的所有词向量。


10.根据权利要求1至9任一项所述的训练方法,其特征在于,还包括:
获取所述词向量序列中同一个所述词向量的所述第一编码向量和所述第二编码向量之间的距离,以获取N个距离,所述N为所述词向量序列中包括的所述词向量的数量;
根据所述N个距离获取所述第一编码序列和所述第二编码序列之间的距离。


11.一种翻译方法,其特征在于,包括:
获取待翻译语句的词向量序列,所述词向量序列包括所述待翻译语句中至少一个词的词向量;
通过翻译模型的编码器获取所述词向量序列的第一编码序列,所述翻译模型的编码器采用单向编码器,所述第一编码序列包括所述词向量序列中每个词向量的第一编码向量;
根据所述每个词向量的所述第一编码向量、第二词向量获取所述每个词向量的第三编码向量,所述第二词向量包括所述词向量序列中在所述每个词向量之后的至少一个词向量;
将所述第一编码序列、所述第三编码序列输入至所述翻译模型的解码器中,以获取翻译结果,其中,所述第三编码序列包括所述每个词向量的第三编码向量。


12.根据权利要求11所述的方法,其特征在于,所述翻译模型是根据第一损失值、第一训练编码序列和第二训练编码序列之间的距离更新单向翻译模型获取的,所述单向翻译模型采用单向编码器,所述第一训练编码序列是所述单向翻译模型的单向编码器针对所述训练语句中的训练词向量序列获取的编码序列,所述训练词向量序列包括所述训练语句中至少一个词的训练词向量,所述第二训练编码序列是双向翻译模型针对所述训练词向量序列获取的编码序列,所述双向翻译模型采用双向编码器,所述第一损失值是根据第一预测结果和所述训练语句对应的目标翻译结果获取的,所述第一预测结果是将所述第一训练编码向量输入至所述单向翻译模型的解码器中获取的。


13.根据权利要求12所述的方法,其特征在于,所述翻译模型具体是根据所述第一损失值、第二损失值、所述第一训练编码序列和所述第二训练编码序列之间的距离更新所述单向翻译模型获取的,所述第二损失值是根据第二预测结果和所述训练语句对应的目标翻译结果获取的,所述第二预测结果是将所述第二训练编码序列输入至所述双向翻译模型的解码器中获取的。


14.根据权利要求12或13所述的方法,其特征在于,所述第一训练编码序列包括每个所述训练词向量的第一训练编码向量,所述第一训练编码向量是通过所述单向翻译模型的编码器根据第一位置信息和第二位置信息对所述每个训练词向量进行编码后获取的,所述第一位置信息包括所述每个训练词向量在所述训练词向量序列中的位置信息,所述第二位置信息包括所述每个训练词向量与第一训练词向量在所述训练词向量序列中的相对位置信息,所述第一训练词向量包括所述训练词向量序列中在所述每个训练词向量之前的至少一个训练词向量。


15.根据权利要求14所述的方法,其特征在于,所述第一训练词向量包括所述训练词向量序列中在所述每个训练词向量之前的所有训练词向量。


16.根据权利要求12至15任一项所述的方法,其特征在于,所述第二训练编码序包括每个所述训练词向量的第二训练编码向量,所述第二训练编码向量是通过所述双向翻译模型的编码器根据第三位置信息和第四位置信息对所述每个训练词向量进行编码后获取的,所述第三位置信息包括所述每个训练词向量在所述训练词向量序列中的位置信息,所述第四位置信息包括所述每个训练词向量与第二训练词向量在所述训练词向量序列中的相对位置信息,所述第二训练词向量包括所述训练词向量序列中在所述每个训练词向量之前的至少一个词向量以及所述训练词向量序列中在所述每个训练词向量之后的至少一个词向量。


17.根据权利要求16所述的方法,其特征在于,所述第二训练词向量包括所述训练词向量序列中在所述每个训练词向量之前的所有词向量以及所述训练词向量序列中在所述每个训练词向量之后的所有词向量。


18.根据权利要求12至15任一项所述的方法,其特征在于,所述第一训练编码序列和所述第二训练编码序列之间的距离是根据N个距离获取的,所述N个距离是所述训练语句中同一个所述词向量的第一训练编码向量和第二训练编码向量之间的距离,所述N为所述训练语句中训练词向量的数量。


19.根据权利要求11至18任一项所述的方法,其特征在于,所述翻译模型的解码器包括n个网络层,所述n个网络层顺次连接,所述n为大于1的正整数,前n-1个所述网络层的输入为所述第一编码序列,第n个所述网络层的输入为所述第三编码序列,所述翻译结果根据所述第n个网络层的输出确定。


20.一种训练装置,其特征在于,包括:
第一获取模块,用于获取训练语句的词向量序列,所述词向量序列包括所述训练语句中至少一个词的词向量;
第一翻译模块,用于通过第一翻译模型的编码器获取所述词向量序列的第一编码序列,所述第一翻译模型的编码器采用单向编码器,所述第一编码序列包括所述至少一个词向量的第一编码向量;
第二翻译模块,用于通过第二翻译模型的编码器获取所述词向量序列的第二编码序列,所述第二翻译模型的编码器采用双向编码器,所述第二编码序列包括所述至少一个词向量的第二编码向量;
所述第一翻译模块,还用于将所述第一编码序列输入至所述第一翻译模型的解码器中,以获取第一预测结果;
第二获取模块,用于根据所述第一预测结果和所述训练语句对应的目标翻译结果获取第一损失...

【专利技术属性】
技术研发人员:张绍磊冯洋李良友
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1