模型训练方法、机器翻译方法以及相关装置和设备制造方法及图纸

技术编号:21952813 阅读:19 留言:0更新日期:2019-08-24 17:51
本申请实施例公开了一种神经网络模型训练方法、装置、设备以及介质,该方法包括:获取包括有训练样本及其对应的标准标签向量的训练样本集;将训练样本输入包括多个注意力网络的神经网络模型;通过神经网络模型对多个注意力网络各自的输出向量进行非线性变换,得到多个注意力网络对应的特征融合向量;获取神经网络模型根据特征融合向量输出预测标签向量,根据预测标签向量与标准标签向量的对比结果,对神经网络模型的模型参数进行调整,直到满足收敛条件,得到目标神经网络模型。采用非线性变换的方式融合各个注意力网络的输出向量,使得各个注意力网络的输出向量充分交互,生成更有信息量的特征融合特征向量,保证最终的输出表示效果更好。

Model Training Method, Machine Translation Method and Related Devices and Equipment

【技术实现步骤摘要】
模型训练方法、机器翻译方法以及相关装置和设备
本申请涉及计算机
,尤其涉及一种神经网络模型训练方法、一种机器翻译方法、神经网络模型训练装置、机器翻译装置、设备以及以及计算机可读存储介质。
技术介绍
近年来,注意力机制(AttentionMechanism)被广泛应用于基于深度学习的自然语言处理(NeturalLanguageProcessing,NLP)各个任务中,例如机器翻译、智能问答、语音识别等任务。目前应用比较广泛的是多头注意力(Multi-headedAttention)机制,所谓多头注意力机制是指通过多个注意力网络学习不同特征,即通过计算多次来捕获不同子空间上的相关信息。但目前基于多头注意力机制的模型在训练过程中,将各个子空间独立对待,其并不关注各个子空间之间的关联关系,因此目前基于多头注意力机制的模型的学习表征能力还比较弱。
技术实现思路
本申请实施例提供了一种神经网络模型训练方法,保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互,学习到包含更多信息的特征,从而增强模型的学习表征能力。第一方面,本申请实施例提供了一种神经网络模型训练方法,包括:获取训练样本集,所述训练样本集包括训练样本及其对应的标准标签向量;将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络;通过所述神经网络模型,对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量;获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量;根据训练样本对应的预测标签向量与标准标签向量的对比结果,对所述神经网络模型的模型参数进行迭代调整,直到满足收敛条件,得到目标神经网络模型。第二方面,本申请实施例提供了一种机器翻译方法,包括:获取待翻译内容;通过机器翻译模型获得所述待翻译内容对应的翻译结果,所述机器翻译模型根据上述第一方面所述的模型训练方式训练得到的;显示所述翻译结果。第三方面,本申请实施例提供了一种神经网络模型训练装置,包括:获取模块,用于获取训练样本集,所述训练样本集包括各个训练样本及其对应的标准标签向量;输入模块,用于将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络;特征融合向量生成模块,用于对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量;预测标签向量获取模块,用于获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量;获得模块,用于根据训练样本对应的预测标签向量与标准标签向量的对比结果,对所述神经网络模型的模型参数进行迭代调整,直到满足收敛条件,得到目标神经网络模型。第四方面,本申请实施例提供了一种机器翻译装置,包括:获取模块,用于获取待翻译内容;翻译模块,用于通过机器翻译模型获得所述待翻译内容对应的翻译结果,所述机器翻译模型根据上述第一方面所述的模型训练方式训练得到的;显示模块,用于显示所述翻译结果。第五方面,本申请实施例提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的神经网络模型训练方法。第六方面,本申请实施例提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储机器翻译模型,所述机器翻译模型是根据上述第一方面所述的神经网络模型训练方法训练得到的;所述处理器用于运行所述机器翻译模型,以获得与待翻译内容对应的翻译结果。第七方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面所述的神经网络模型训练方法训练得到的。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供了一种神经网络模型训练方法,在该方法中,先获取包括有训练样本以及其对应的标准标签向量的训练样本集;然后,将该训练样本集中的训练样本输入神经网络模型中,该神经网络模型包括多个注意力网络;接着,通过该神经网络模型,对多个注意力网络各自的输出向量进行非线性变换,得到多个注意力网络对应的特征融合向量;进而,获取神经网络模型根据特征融合向量输出的训练样本对应的预测标签向量,根据该预测标签向量与标准标签向量的对比结果,对神经网络模型的模型参数进行调整,直到满足收敛条件,得到目标神经网络模型。在上述训练方法中,对多个注意力网络各自的输出向量进行融合时,采用了非线性变换的方式将各个注意力网络各自的输出向量融合得到特征融合向量,相比现有技术中通过对各个注意力网络各自的输出向量进行拼接得到特征融合向量,这种非线性变换的方式考虑了各个注意力网络的输出向量之间的复杂关系,能够使得各个注意力网络各自的输出向量充分交互,从而生成更有信息量的特征融合特征向量,进而保证最终的输出表示效果更好,基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。附图说明图1为本申请实施例提供的神经网络模型训练方法的应用场景示意图;图2为本申请实施例提供的神经网络模型训练方法的流程示意图;图3为本申请实施例提供的一种非线性变换方式的流程示意图;图4为本申请实施例提供的一种非线性变换方式的原理示意图;图5为本申请实施例提供的另一种非线性变换方式的流程示意图;图6为本申请实施例提供的另一种非线性变换方式的原理示意图;图7为本申请实施例提供的又一种非线性变换方式的流程示意图;图8为本申请实施例提供的又一种非线性变换方式的原理示意图;图9a为本申请实施例提供的一种机器翻译模型的结构示意图;图9b为本申请实施例提供的一种机器翻译方法的流程示意图;图10为本申请实施例提供的一种神经网络模型训练装置的结构示意图;图11为本申请实施例提供的一种特征融合向量生成模型的结构示意图;图12为本申请实施例提供的另一种特征融合向量生成模型的结构示意图;图13为本申请实施例提供的又一种特征融合向量生成模型的结构示意图;图14为本申请实施例提供的一种机器翻译装置的结构示意图;图15为本申请实施例提供的一种服务器的结构示意图;图16为本申请实施例提供的一种终端设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。现有技术中,在对基于多头注意力本文档来自技高网
...

【技术保护点】
1.一种神经网络模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括训练样本及其对应的标准标签向量;将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络;通过所述神经网络模型,对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量;获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量;根据训练样本对应的预测标签向量与标准标签向量的对比结果,对所述神经网络模型的模型参数进行迭代调整,直到满足收敛条件,得到目标神经网络模型。

【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括训练样本及其对应的标准标签向量;将所述训练样本集中的训练样本输入神经网络模型中,所述神经网络模型包括多个注意力网络;通过所述神经网络模型,对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量;获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量;根据训练样本对应的预测标签向量与标准标签向量的对比结果,对所述神经网络模型的模型参数进行迭代调整,直到满足收敛条件,得到目标神经网络模型。2.根据权利要求1所述方法,其特征在于,所述对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量,包括:将所述多个注意力网络各自的输出向量并排堆叠成一张二维的特征图;通过卷积神经网络从所述特征图提取特征得到三维张量;将所述三维张量序列化处理得到一个一维向量;对所述一维向量作线性变换得到所述多个注意力网络对应的特征融合向量。3.根据权利要求2所述方法,其特征在于,所述通过卷积网络从所述特征图提取特征得到三维张量,包括:采用卷积神经网络对所述特征图进行卷积操作得到三维张量;或者,采用卷积神经网络对所述特征图进行卷积和池化操作得到三维张量。4.根据权利要求1所述方法,其特征在于,所述对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量,包括:将所述多个注意力网络各自的输出向量进行拼接得到第一向量;对所述第一向量进行两次映射分别得到第二向量和第三向量;将所述第二向量和所述第三向量按照元素对应相乘得到第四向量;对所述第四向量进行线性映射得到所述多个注意力网络对应的特征融合向量。5.根据权利要求1所述方法,其特征在于,所述对所述多个注意力网络各自的输出向量进行非线性变换,得到所述多个注意力网络对应的特征融合向量,包括:将所述多个注意力网络各自的输出向量进行拼接,得到第一向量;对所述第一向量进行两次映射分别得到第二向量和第三向量;将所述第二向量和所述第三向量按照元素对应相乘得到第四向量;将所述第四向量和所述第一向量融合得到第五向量;对所述第五向量进行线性映射得到所述多个注意力网络对应的特征融合向量。6.根据权利要求5所述方法,其特征在于,所述根据所述第四向量和所述第一向量融合得到第五向量,包括:将所述第四向量和所述第一向量进行顺序拼接得到第五向量;或者,将所述第四向量和所述第一向量按照元素位置对应相乘得到第五向量;或者,将所述第四向量和所述第一向量按照元素位置对应相加得到第五向量。7.根据权利要求1所述方法,其特征在于,所述根据训练样本对应的预测标签向量与标准标签向量的对比结果,对所述神经网络模型的模型参数进行迭代调整,直到满足收敛条件,得到目标神经网络模型,包括:根据训...

【专利技术属性】
技术研发人员:涂兆鹏李建王星王龙跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1