【技术实现步骤摘要】
神经网络机器翻译模型的训练方法、装置及存储介质
本专利技术涉及机器翻译领域。具体地,本专利技术涉及形成神经网络机器翻译模型的训练方法、装置及存储介质。
技术介绍
机器翻译是指利用计算机将一种自然语言翻译成另一种具有相同语义的自然语言,它是人工智能和自然语言处理领域的重要研究方向之一。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。通常,机器翻译的系统框架可以分为两类:基于规则的机器翻译(RulebasedMachineTranslation,RBMT)和基于语料库的机器翻译(CorpusbasedMachineTranslation,CBMT)。其中CBMT又可分为基于实例的机器翻译(ExamplebasedMachineTranslation,EBMT)、基于统计的机器翻译(StatisticalbasedMachineTranslation,SMT)以及近年流行的利用深度训练模型所构建的神经网络机器翻译(NeuralMachineTranslation,NMT)。基于统计的机器翻译方法实际上将源文本和目标文本之间的翻译看成是一个概率对照的关系,试图用纯数学的概率统计来获取训练语料中的翻译对应关系。它的任务就是在所有可能的目标语言的句子中,寻找概率最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模型和基于语义的翻译模型。神经机器翻译是指直接采用神经网络以端到端(End ...
【技术保护点】
1.一种神经网络机器翻译模型的训练方法,其特征在于,所述方法包括以下步骤:/n分别对第一句子的头部和第二句子的头部添加标签,其中,所述第一句子和所述第二句子构成双语句子对,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;/n使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;/n采用多任务训练方法,利用所述四个方向上的所述训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。/n
【技术特征摘要】
1.一种神经网络机器翻译模型的训练方法,其特征在于,所述方法包括以下步骤:
分别对第一句子的头部和第二句子的头部添加标签,其中,所述第一句子和所述第二句子构成双语句子对,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;
使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;
采用多任务训练方法,利用所述四个方向上的所述训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。
2.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述方法在采用多任务训练方法,利用所述四个方向上的训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练的步骤之后,还包括以下步骤:
采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
3.根据权利要求2所述的神经网络机器翻译模型的训练方法,其特征在于,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤之后,所述方法还包括以下步骤:
对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式。
4.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中:
在作为所述神经网络机器翻译模型的输入句子的所述第一句子的头部或所述第二句子的头部添加所述源端-目标端或所述目标端-源端的标签,以指示所述输入句子是源语言还是目标语言;
在作为所述神经网络机器翻译模型的输出句子的所述第一句子的头部或所述第二句子的头部添加所述从左到右或从右到左的标签,以指示所述输出句子的词语的排列方向是从右到左还是从左到右。
5.根据权利要求4所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中,包括:
对所述第一句子和所述第二句子进行分词和词频统计处理,以统计所述源语言和所述目标语言的词频和占比情况,从而确定在所述神经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词汇表的大小。
6.根据权利要求5所述的神经网络机器翻译模型的训练方法,其中,所述神经网络机器翻译模型包括语言无关的表示器,并且所述神经网络机器翻译模型采用自注意力机制网络作为主体结构,所述语言无关的表示器包括编码器和解码器。
7.根据权利要求6所述的神经网络机器翻译模型的训练方法,其中,在所述神经网络机器翻译模型中,基于对所述第一句子和所述第二句子的词频统计,对所述第一句子和所述第二句子中的词语进行降序排列,并且在所述输入端的翻译模型词汇表和所述输出端的翻译模型词汇表中具有相同排序的词语共享相同的词向量,所述语言无关的表示器的所述编码器的子层与所述解码器的子层具有对应关系,并且在具有对应关系的所述编码器的子层与所述解码器的子层之间共享所有参数。
8.根据权利要求7所述的神经网络机器翻译模型的训练方法,其中,所述编码器的子层和所述解码器的子层各自包括:自注意力子层、层级正则子层、全连接子层。
9.根据权利要求4所述的神经网络机器翻译模型的训练方法,其中,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤中:
被指示为所述源语言的句子作为所述输入句子,被指示为所述目标语言的句子作为所述输出句子,计算第一极大似然目标函数;
被指示为所述目标语言的句子作为所述输入句子,被指示为所述源语言的句子作为所述输出句子,计算第二极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从左到右的句子作为所述输出句子,计算第三极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从右到左的句子作为所述输出句子,计算第四极大似然目标函数;
对所述第一极大似然目标函数、第二极大似然目标函数、第三极大似然目标函数、第四极大似然目标函数求和,得到目标优化函数,以对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。
10.根据权利要求3所述的神经网络机器翻译模型的训练方法,对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式的步骤包括:
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从右到左,使用柱搜索方法实现从右到左方向上的解码得出从右到左的第一最终输出,并计算所述第一最终输出对应的第一联合极大似然得分;
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从左到右,使用柱搜索方法实现从左到右方向上的解码得出从左到右的第二最终输出,并计算所述第二最终输出对应的第二联合极大似然得分;
从所述第一联合极大...
【专利技术属性】
技术研发人员:周龙,周玉,杨里,
申请(专利权)人:波音公司,中国科学院自动化研究所,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。