多语言翻译模型的生成方法、翻译方法及设备技术

技术编号:23485105 阅读:20 留言:0更新日期:2020-03-10 12:40
本发明专利技术公开了一种多语言翻译模型的生成方法、翻译方法及设备,多语言翻译模型的生成方法包括:构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。利用本发明专利技术实施例可生成多语言翻译模型,执行多语言语句的翻译任务。

The generation method, translation method and equipment of multilingual translation model

【技术实现步骤摘要】
多语言翻译模型的生成方法、翻译方法及设备
本专利技术涉及计算机领域,尤其是涉及一种多语言翻译方法、翻译方法及其装置、设备和计算机可读存储介质。
技术介绍
机器翻译是指利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前,基于语料库的机器翻译技术代表着该领域的主流技术趋势,诸如统计机器翻译(StatisticalMachineTranslation,SMT)及神经网络机器翻译(NeuralMachineTranslation,NMT),均依赖于含有大量训练数据的语料库来进行对翻译模型的训练。双语语料是这类语料库中的一种语料数据,无论对于SMT,还是NMT,绝大多数机器翻译技术均是基于双语语料进行模型训练。然而,由于双语语料仅是特定语言对(例如中-英、英-俄)的互译语料,因此训练得到的机器翻译模型也仅针对该特定语言对的翻译任务,对于第三种语言则无法做出应有的翻译。另一方面,一直以来,机器翻译领域中翻译模型所需的训练语料属于稀缺资源。举例来讲,目前认为,高质量的双语互译语料中,中-英双语互译句对有2亿条,英-俄双语互译句对有1亿条,而中-俄的双语互译句对仅有200万条。也就是说,与中-英、英-俄的双语语料库数据量相比,中-俄双语语料库的数据量明显偏少,属于稀缺资源语言对,以至于针对中-俄双语的机器翻译模型的训练无法达到预期,翻译质量堪忧。对于如何实现稀缺资源语言对的源语言与目标语言(例如中-俄)之间的翻译,目前已知的处理方式有两种:第一种方式是寻找一种桥接语言(例如英文),对从源语言到桥接语言(例如中-英)的翻译模型和从桥接语言到目标语言(例如英-俄)的翻译模型,分别独立地进行训练,之后再进行两次翻译(源语言翻译为桥接语言、桥接语言翻译为目标语言),通过桥接的方式,最终完成源语言到目标语言的翻译;第二种方式是基于传统的神经机器翻译模型,强行将所有的语言对语料(例如中-英、英-俄以及中-俄)进行共同训练,最终得到一个涉及多语言(例如中文、英文和俄文)的机器翻译模型。以上两种处理方式虽然能够在一定程度上实现例如三种语言的翻译,但是,由于该两种处理方式本身存在的缺陷,其翻译质量与期望效果相差甚远。对于第一种方式,两次翻译容易带来错误叠加,并且如果两个翻译模型采用的训练数据来自完全不同的领域,可导致错误叠加的问题加剧,此外两次翻译也更加耗时;对于第二种方式,将多语言对语料一起进行训练,当不同语言之间的语言特点或构成存在较大差别(例如语序差别很大)时,传统的多语言翻译框架将无法解决由语言特点不同所带来的翻译知识冲突问题,兼容性得不到保证。
技术实现思路
有鉴于此,本专利技术提出一种多语言机器翻译方法、翻译方法及其装置、设备和计算机可读存储介质,可以用来解决稀缺资源语言对的翻译问题。第一方面,本专利技术提供一种多语言翻译模型的生成方法,包括:构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。第二方面,本专利技术提供一种多语言翻译模型生成装置,包括:语料库构建模块,用于构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;多语言翻译模型训练模块,用于将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。第三方面,本专利技术提供一种计算设备,包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,当所述计算机程序指令被处理器执行时实现如上所述的方法。第五方面,本专利技术提供一种翻译方法,包括:获取待翻译的源语言语句和目标语言;将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;所述多语言翻译模型输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。第六方面,本专利技术提供一种翻译装置,包括:待翻译信息获取模块,用于获取待翻译的源语言语句和目标语言;待翻译信息输入模块,用于将所述待翻译的源语言语句和目标语言输入训练好的多语言翻译模型;所述多语言翻译模型,用于输出所述源语言语句对应的目标语言翻译结果;其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。第七方面,本专利技术提供一种计算设备,包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。第八方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的方法。利用本专利技术的实施例对预设的多语言翻译网络进行训练,可将源语言语句转换为中间语义表示,并基于此得到翻译后的目标语言语句,与源语言语句的正确翻译语句进行对比,从而生成训练好的多语言翻译模型,使用训练好的多语言翻译模型可完成多种待翻译语言语句的翻译任务。附图说明图1为本专利技术实施例的一种多语言翻译模型生成方法的流程框图。图2为本专利技术实施例的一种多语言翻译模型的功能结构框图。图3为本专利技术实施例的一种翻译方法的流程框图。图4为本专利技术实施例的一种多语言翻译模型的功能结构框图。图5为本专利技术实施例的一种翻译方法的流程框图。图6为本专利技术实施例的设备的硬件结构示意图。具体实施方式以下结合附图及实施例,对本专利技术进行详细描述。应理解,所描述的具体实施例仅用于解释本专利技术,而并不用于限定本专利技术。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。本专利技术的主要思想在于通过将不同语言的文本均转换为同一语义空间下的潜在的中间语义表示(LatentInterlinguaSemantics),再根据该潜在的中间语义表示得到对应的翻译结果,以此达到基于一个翻译模型实现多语言翻译的目的。以下对本专利技术的各个方面进行详细描述。参考图1,示出了本专利技术实施例的一种多语言翻译模型的生成方法的流程框图,该方法包本文档来自技高网
...

【技术保护点】
1.一种多语言翻译模型的生成方法,包括:/n构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;/n将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。/n

【技术特征摘要】
1.一种多语言翻译模型的生成方法,包括:
构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;
将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。


2.根据权利要求1所述的方法,其中,所述语料库中包括至少三种语言的语句。


3.根据权利要求1或2所述的方法,其中,所述双语句对包括采用第一语言编写的第一语句和采用第二语言编写的第二语句,所述多语言翻译网络包括依次相连的源端处理模块和目标端处理模块,
所述源端处理模块用于确定所述第一语句对应的第一中间语义表示;
所述目标端处理模块用于根据所述第一中间语义表示来生成所述第一语句所对应的第二语言的翻译语句。


4.根据权利要求3所述的方法,其中,所述对预设的多语言翻译网络进行训练,以生成多语言翻译模型的步骤包括:
根据所述翻译语句和所述第二语句来调整所述多语言翻译网络的参数;以及
将最优参数下的多语言翻译网络作为多语言翻译模型。


5.根据权利要求3所述的方法,其中,所述源端处理模块包括依次相连的编码器和源端注意力单元,
所述编码器用于确定所述第一语句所对应的隐状态表示;
所述源端注意力单元用于根据所述隐状态表示来生成所述第一语句的第一中间语义表示。


6.根据权利要求5所述的方法,其中,所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述源端注意力单元的输入端相连,所述源端注意力模块进一步用于根据所述隐状态表示和所述第一语言的语种向量来生成所述第一语句的第一中间语义表示。


7.根据权利要求5或6所述的方法,其中,所述源端处理模块还包括词嵌入单元,所述词嵌入单元的输出端与所述编码器的输入端相连,所述词嵌入单元用于生成所述第一语句所包括的词的词向量序列。


8.根据权利要求7所述的方法,其中,所述源端处理模块包括多个词嵌入单元,每个词嵌入单元对应于一种语言。


9.根据权利要求3所述的方法,其中,所述目标端处理模块包括依次相连的目标端注意力单元和解码器,
所述目标端注意力单元用于根据所述第一中间语义表示生成所述第一语句所对应的第二语言的隐状态表示;
所述解码器用于根据所述第二语言的隐状态表示确定所述第一语句所对应的第二语言的翻译结果。


10.根据权利要求9所述的方法,其中,所述多语言翻译网络还包括语种向量单元,所述语种向量单元中存储有各个语言所对应的语种向量;
所述语种向量单元的输出端与所述解码器的输入端相连,所述语种向量单元用于确定所述第二语言的隐状态表示的语种向量。


11.根据权利要求3所述的方法,其中,所述多语言翻译网络还包括对抗网络处理单元,用于采用生成式对抗网络对不同语言语句所对应的中间语义表示进行区分。


12.一种多语言翻译模型的生成装置,包括:
语料库构建模块,用于构建语料库,所述语料库包括多个双语句...

【专利技术属性】
技术研发人员:朱长峰于恒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1