模型训练方法、机器翻译方法以及相关装置和设备制造方法及图纸

技术编号：21952813 阅读：19 留言：0更新日期：2019-08-24 17:51

本申请实施例公开了一种神经网络模型训练方法、装置、设备以及介质，该方法包括：获取包括有训练样本及其对应的标准标签向量的训练样本集；将训练样本输入包括多个注意力网络的神经网络模型；通过神经网络模型对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量；获取神经网络模型根据特征融合向量输出预测标签向量，根据预测标签向量与标准标签向量的对比结果，对神经网络模型的模型参数进行调整，直到满足收敛条件，得到目标神经网络模型。采用非线性变换的方式融合各个注意力网络的输出向量，使得各个注意力网络的输出向量充分交互，生成更有信息量的特征融合特征向量，保证最终的输出表示效果更好。

Model Training Method, Machine Translation Method and Related Devices and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、机器翻译方法以及相关装置和设备
本申请涉及计算机
，尤其涉及一种神经网络模型训练方法、一种机器翻译方法、神经网络模型训练装置、机器翻译装置、设备以及以及计算机可读存储介质。
技术介绍
近年来，注意力机制(AttentionMechanism)被广泛应用于基于深度学习的自然语言处理(NeturalLanguageProcessing，NLP)各个任务中，例如机器翻译、智能问答、语音识别等任务。目前应用比较广泛的是多头注意力(Multi-headedAttention)机制，所谓多头注意力机制是指通过多个注意力网络学习不同特征，即通过计算多次来捕获不同子空间上的相关信息。但目前基于多头注意力机制的模型在训练过程中，将各个子空间独立对待，其并不关注各个子空间之间的关联关系，因此目前基于多头注意力机制的模型的学习表征能力还比较弱。
技术实现思路
本申请实施例提供了一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，学习到包含更多信息的特征，从而增强模型的学习表征能力。第一方面，本申请实施例提供了一种神经网络模型训练方法，包括：获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；根据训练样本对应的预测标签向量与标准标...

【技术保护点】
1.一种神经网络模型训练方法，其特征在于，包括：获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。

【技术特征摘要】
1.一种神经网络模型训练方法，其特征在于，包括：获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。2.根据权利要求1所述方法，其特征在于，所述对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量，包括：将所述多个注意力网络各自的输出向量并排堆叠成一张二维的特征图；通过卷积神经网络从所述特征图提取特征得到三维张量；将所述三维张量序列化处理得到一个一维向量；对所述一维向量作线性变换得到所述多个注意力网络对应的特征融合向量。3.根据权利要求2所述方法，其特征在于，所述通过卷积网络从所述特征图提取特征得到三维张量，包括：采用卷积神经网络对所述特征图进行卷积操作得到三维张量；或者，采用卷积神经网络对所述特征图进行卷积和池化操作得到三维张量。4.根据权利要求1所述方法，其特征在于，所述对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量，包括：将所述多个注意力网络各自的输出向量进行拼接得到第一向量；对所述第一向量进行两次映射分别得到第二向量和第三向量；将所述第二向量和所述第三向量按照元素对应相乘得到第四向量；对所述第四向量进行线性映射得到所述多个注意力网络对应的特征融合向量。5.根据权利要求1所述方法，其特征在于，所述对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量，包括：将所述多个注意力网络各自的输出向量进行拼接，得到第一向量；对所述第一向量进行两次映射分别得到第二向量和第三向量；将所述第二向量和所述第三向量按照元素对应相乘得到第四向量；将所述第四向量和所述第一向量融合得到第五向量；对所述第五向量进行线性映射得到所述多个注意力网络对应的特征融合向量。6.根据权利要求5所述方法，其特征在于，所述根据所述第四向量和所述第一向量融合得到第五向量，包括：将所述第四向量和所述第一向量进行顺序拼接得到第五向量；或者，将所述第四向量和所述第一向量按照元素位置对应相乘得到第五向量；或者，将所述第四向量和所述第一向量按照元素位置对应相加得到第五向量。7.根据权利要求1所述方法，其特征在于，所述根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型，包括：根据训...

【专利技术属性】
技术研发人员：涂兆鹏，李建，王星，王龙跃，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人