基于翻译模型的训练方法、翻译方法、装置及存储介质制造方法及图纸

技术编号:18497047 阅读:14 留言:0更新日期:2018-07-21 20:09
本发明专利技术实施例公开了一种基于翻译模型的训练方法、翻译方法、装置及存储介质;其中,方法包括:向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定所述目标语句对于所述源语句的忠实度;以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;使用所述判别器模型输出所述目标语句与所述参考语句的相似度;以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能。

Training method, translation method, device and storage medium based on translation model

An embodiment of the invention discloses a training method, a translation method, a device and a storage medium based on a translation model, in which the method includes: input source statement to the translation model, obtaining the target statement output by the translation model, and determining the fidelity of the target statement for the source sentence, and the target statement and the target statement. The reference statement is the input of the discriminator model and the output of the fidelity as the discriminator model, training the discriminator model to calculate the performance of the similarity between the target statement and the reference statement, and using the discriminator model to output the similarity between the target statement and the reference statement; As the input of the translation model, the statement is used as the output of the translated model, and the similarity is used as the weight coefficient, and the translation model is trained to output the performance of the corresponding target statement according to the input source statement.

【技术实现步骤摘要】
基于翻译模型的训练方法、翻译方法、装置及存储介质
本专利技术涉及机器翻译(MT,MachineTranslation)技术,尤其涉及一种基于翻译模型的训练方法、翻译方法、装置及存储介质。
技术介绍
随着机器翻译的发展,神经网络机器翻译(NMT,NeuralMachineTranslation)作为新一代的翻译技术得到普通应用。神经网络机器翻译系统基于编码器-解码器框架搭建,然而,在神经网络机器翻译系统的翻译过程中,解码器兼具多重任务,如记录当前翻译的内容、以及需要翻译的内容,记录翻译的流畅度的相关信息等。由于解码器任务的复杂性导致其无法兼顾所有任务,致使目前的神经网络机器翻译系统翻译的准确度不高,漏翻、重复翻译现象严重。
技术实现思路
本专利技术实施例提供一种基于翻译模型的训练方法、翻译方法、装置及存储介质,能够较好的避免漏翻、重复翻译现象,提高机器翻译的准确度。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种基于翻译模型的训练方法,包括:向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定所述目标语句对于所述源语句的忠实度;以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;使用所述判别器模型输出所述目标语句与所述参考语句的相似度;以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能。上述方案中,所述确定所述目标语句对于所述源语句的忠实度,包括:响应于所述忠实度为覆盖率,获取所述目标语句的词语覆盖所述源语句的词语的第一覆盖数量,以及,获取所述参考语句的词语覆盖所述源语句的词语的第二覆盖数量;计算所述第一覆盖数量与所述第二覆盖数量的差值;计算所述差值与所述第二覆盖数量的比值作为所述覆盖率。上述方案中,所述获取所述目标语句的词语覆盖所述源语句的词语的第一覆盖数量,包括:在获得所述翻译模型输出的目标语句的向量序列的过程中,将所述目标语句中每个词语的向量与所述源语句中对应词语的向量进行对齐,形成第一对齐矩阵;从所述第一对齐矩阵中统计得到所述目标语句中词语覆盖所述源语句中词语的第一覆盖数量。上述方案中,所述获取所述参考语句的词语覆盖所述源语句的词语的第二覆盖数量,包括:分别获取对应所述参考语句及所述源语句的向量序列;对齐所述源语句的向量序列与所述参考语句的向量序列中相同词语对应的向量,得到第二对齐矩阵;从所述第二对齐矩阵统计得到所述参考语句中词语覆盖所述源语句中词语的第二覆盖数量。上述方案中,所述确定所述目标语句对于所述源语句的忠实度,包括:响应于所述忠实度为双语评估替代值,将所述目标语句中的词语与所述参考语句中的词语进行匹配,得到所述目标语句与所述参考语句中相同词语的数量;计算得到的所述数量与所述目标语句中词语的数量的比值作为所述双语评估替代值。上述方案中,所述使用所述判别器模型输出所述目标语句与所述参考语句的相似度,包括:使用所述判别器模型中的第一神经网络模型对所述目标语句进行编码,得到第一编码向量;使用所述判别器模型中的第二神经网络模型对所述参考语句进行编码,得到第二编码向量;将所述第一编码向量及所述第二编码向量输入到所述判别器模型中的第三神经网络模型进行相似度计算,得到所述目标语句与所述参考语句的相似度。上述方案中,所述以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能,包括:初始化所述翻译模型包括的输入层、中间层和输出层;构建训练样本集合;所述训练样本集合包括待翻译的源语句及对应源语句的翻译结果的目标语句;初始化基于翻译模型输入、翻译模型输出、以及翻译模型参数构建的损失函数;以所选取训练样本的源语句作为输入、所选取训练样本的目标语句作为输出、求解翻译模型参数中与所选取训练样本对应维度的更新值;将每个选取训练样本对应的更新值基于相应样本的相似度融合;基于融合得到的所述翻译模型参数对应所述训练样本集合的更新值,更新所述翻译模型参数。上述方案中,所述向翻译模型输入源语句,获得所述翻译模型输出的目标语句,包括:使用翻译模型的编码器模型计算对应所述源语句的语义向量;基于所述输入所述翻译模型中解码器模型的所述语义向量、输入所述语义向量时所述解码器模型的状态、所述解码器模型上一次输出的词语,计算候选词语与所述源语句中词语的对齐概率;选取计算得到的对齐概率最高的候选词语作为输出的词语;连接针对所述源语句的各词语对应输出的词语,形成所述目标语句。上述方案中,所述使用翻译模型的编码器模型计算对应所述源语句的语义向量,包括:使用所述翻译模型的编码器模型生成对应所述源语句的向量序列;使用注意力模型为所述源语句的向量序列中的词向量分配注意力概率;将所述源语句的向量序列中的词向量与分配的所述注意力概率进行加权求和,得到对应所述源语句的语义向量。第二方面,本专利技术实施例提供一种基于翻译模型的训练装置,包括:第一获取单元,用于向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定单元,用于确定所述目标语句对于所述源语句的忠实度;第一训练单元,用于以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;第一输出单元,用于使用所述判别器模型输出所述目标语句与所述参考语句的相似度;第二训练单元,用于以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能。上述方案中,所述确定单元,还用于响应于所述忠实度为覆盖率,获取所述目标语句的词语覆盖所述源语句的词语的第一覆盖数量,以及,获取所述参考语句的词语覆盖所述源语句的词语的第二覆盖数量;计算所述第一覆盖数量与所述第二覆盖数量的差值;计算所述差值与所述第二覆盖数量的比值作为所述覆盖率。上述方案中,所述确定单元,还用于在获得所述翻译模型输出的目标语句的向量序列的过程中,将所述目标语句中每个词语的向量与所述源语句中对应词语的向量进行对齐,形成第一对齐矩阵;从所述第一对齐矩阵中统计得到所述目标语句中词语覆盖所述源语句中词语的第一覆盖数量。上述方案中,所述确定单元,还用于分别获取对应所述参考语句及所述源语句的向量序列;对齐所述源语句的向量序列与所述参考语句的向量序列中相同词语对应的向量,得到第二对齐矩阵;从所述第二对齐矩阵统计得到所述参考语句中词语覆盖所述源语句中词语的第二覆盖数量。上述方案中,所述确定单元,还用于响应于所述忠实度为双语评估替代值,将所述目标语句中的词语与所述参考语句中的词语进行匹配,得到所述目标语句与所述参考语句中相同词语的数量;计算得到的所述数量与所述目标语句中词语的数量的比值作为所述双语评估替代值。上述方案中,所述第一输出单元,还用于使用所述判别器模型中的第一神经网络模型对所述目标语句进行编码,得到第一编码向量;使用所述判别器模型中的第二神经网络模型对所述参本文档来自技高网...

【技术保护点】
1.一种基于翻译模型的训练方法,其特征在于,包括:向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定所述目标语句对于所述源语句的忠实度;以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;使用所述判别器模型输出所述目标语句与所述参考语句的相似度;以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能。

【技术特征摘要】
1.一种基于翻译模型的训练方法,其特征在于,包括:向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定所述目标语句对于所述源语句的忠实度;以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;使用所述判别器模型输出所述目标语句与所述参考语句的相似度;以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能。2.如权利要求1所述的方法,其特征在于,所述确定所述目标语句对于所述源语句的忠实度,包括:响应于所述忠实度为覆盖率,获取所述目标语句的词语覆盖所述源语句的词语的第一覆盖数量,以及,获取所述参考语句的词语覆盖所述源语句的词语的第二覆盖数量;计算所述第一覆盖数量与所述第二覆盖数量的差值;计算所述差值与所述第二覆盖数量的比值作为所述覆盖率。3.如权利要求2所述的方法,其特征在于,所述获取所述目标语句的词语覆盖所述源语句的词语的第一覆盖数量,包括:在获得所述翻译模型输出的目标语句的向量序列的过程中,将所述目标语句中每个词语的向量与所述源语句中对应词语的向量进行对齐,形成第一对齐矩阵;从所述第一对齐矩阵中统计得到所述目标语句中词语覆盖所述源语句中词语的第一覆盖数量。4.如权利要求2所述的方法,其特征在于,所述获取所述参考语句的词语覆盖所述源语句的词语的第二覆盖数量,包括:分别获取对应所述参考语句及所述源语句的向量序列;对齐所述源语句的向量序列与所述参考语句的向量序列中相同词语对应的向量,得到第二对齐矩阵;从所述第二对齐矩阵统计得到所述参考语句中词语覆盖所述源语句中词语的第二覆盖数量。5.如权利要求1所述的方法,其特征在于,所述确定所述目标语句对于所述源语句的忠实度,包括:响应于所述忠实度为双语评估替代值,将所述目标语句中的词语与所述参考语句中的词语进行匹配,得到所述目标语句与所述参考语句中相同词语的数量;计算得到的所述数量与所述目标语句中词语的数量的比值作为所述双语评估替代值。6.如权利要求1所述的方法,其特征在于,所述使用所述判别器模型输出所述目标语句与所述参考语句的相似度,包括:使用所述判别器模型中的第一神经网络模型对所述目标语句进行编码,得到第一编码向量;使用所述判别器模型中的第二神经网络模型对所述参考语句进行编码,得到第二编码向量;将所述第一编码向量及所述第二编码向量输入到所述判别器模型中的第三神经网络模型进行相似度计算,得到所述目标语句与所述参考语句的相似度。7.如权利要求1所述的方法,其特征在于,所述以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的目标语句的性能,包括:初始化所述翻译模型包括的输入层、中间层和输出层;构建训练样本集合;所述训练样本集合包括待翻译的源语句及对应源语句的翻译结果的目标语句;初始化基于翻译模型输入、翻译模型输出、以及翻译模型参数构建的损失函数;以所选取训练样本的源语句作为输入、所选取训练样本的目标语句作为输出、求解翻译模型参数中与所选取训练样本对应维度的更新值;将每个选取训练样本对应的更新值基于相应样本的相似度融合;基于融合得到的所述翻译模型参数对应所述训练样本集合的更新值,更新所述翻译模型参数。8.如权利要求1所述的方法,其特征在于,所述向翻译模型输入源语句,获得所述翻译模型输出的目标语句,包括:使用翻译模型的编码器模型计算对应所述源语句的语义向量;基于所述输入所述翻译模型中解码器模型的所述语义向量、输入所述语义向量时所述解码器模型的状态、所述解码器模型上一次输出的词语,计算候选词语与所述源语句中词语的对齐概率;选取计算得到的对齐概率最高的候选词语作为输出的词语;连接针对所述源语句的各词语对应输出的词语,形成所述目标语句。9.如权利要求8所述的方法,其特征在于,所述使用翻译模型的编码器模型计算对应所述源语句的语义向量,包括:使用所述翻译模型的编码器模型生成对应所述源语句的向量序列;使用注意力模型为所述源语句的向量序列中的词向量分配注意力概率;将所述源语句的向量序列中的词向量与分配的所述注意力概率进行加权求和,得到对应所述源语句的语义向量。10.一种基于翻译模型的训练装置,其特征在于,包括:第一获取单元,用于向翻译模型输入源语句,获得所述翻译模型输出的目标语句;确定单元,用于确定所述目标语句对于所述源语句的忠实度;第一训练单元,用于以所述目标语句和参考语句作为判别器模型的输入、以所述忠实度作为所述判别器模型的输出,训练所述判别器模型计算所述目标语句与所述参考语句的相似度的性能;第一输出单元,用于使用所述判别器模型输出所述目标语句与所述参考语句的相似度;第二训练单元,用于以所述源语句作为所述翻译模型的输入、以所述目标语句作为所述翻译模型的输出、并以所述相似度作为权重系数,训练所述翻译模型根据输入的源语句输出对应的...

【专利技术属性】
技术研发人员:涂兆鹏孔翔史树明张潼
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1