文本翻译方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:21478097 阅读:25 留言:0更新日期:2019-06-29 04:55
本申请涉及一种文本翻译方法、装置、存储介质和计算机设备,该方法包括:获取源文本的词序列;源文本为指代词缺略文本;对词序列进行语义编码,得到源端向量序列;对源端向量序列进行解码,得到候选译文、各候选译文对应的目标端向量序列、及各候选译文对应的翻译得分;将词序列和源端向量序列,与各目标端向量序列分别进行重构处理,得到与各候选译文分别对应的重构隐层向量序列;重构隐层向量序列包括源文本所缺少指代词的词信息;将源文本的词序列,与各重构隐层向量序列分别进行重构评估处理,得到与各候选译文分别对应的重构得分;从候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文。本申请提供的方案可以提高翻译质量。

【技术实现步骤摘要】
文本翻译方法、装置、存储介质和计算机设备
本申请涉及机器学习
,特别是涉及一种文本翻译方法、装置、存储介质和计算机设备,以及模型训练方法、装置、存储介质和计算机设备。
技术介绍
机器翻译是通过计算机将一种自然语言文本(需翻译的自然语言文本一般称为源文本)翻译为另一种自然语言文本(翻译后的自然语言文本称为目标译文),以实现不同语种的文本之间的转换。而不同的语种之间会有不同的语法及句式习惯,比如,在汉语和日语等语言中,指代词缺略是极为常见的现象,与之相反,在英、法等语言中,指代词作为句子成分则必不可少。当从指代词缺略语言(比如汉语)到非指代词缺略语言(比如英语)翻译时,需要将隐含的缺略词(也就是缺少的指代词)召回并正确地翻译出来,这给机器翻译带来了极大挑战,机器翻译很难将源端的隐性信息在目标端显性地解码出来。传统的机器翻译方式,以中译英为例,通常采用词对齐算法和语言模型,自动标注并还原中文句子中的缺略代词,将补全了缺略代词的句子传递给统计机器翻译系统进行翻译。然而传统的机器翻译方式,常常由于缺略词还原的低准确率带来错误传递,导致源端被添加了错误的指代词从而使得翻译结果错误,导致了文本翻译准确率低的问题。
技术实现思路
基于此,有必要针对文本翻译准确率低的技术问题,提供一种文本翻译方法、装置、计算机可读存储介质和计算机设备,以及模型训练方法、装置、计算机可读存储介质和计算机设备。一种文本翻译方法,包括:获取源文本的词序列;所述源文本为指代词缺略文本;对所述源文本的词序列进行语义编码,得到源端向量序列;对所述源端向量序列进行解码处理,得到候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;从所述候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文。一种文本翻译装置,所述装置包括:获取模块,用于获取源文本的词序列;所述源文本为指代词缺略文本;编码模块,用于对所述源文本的词序列进行语义编码,得到源端向量序列;解码模块,用于对所述源端向量序列进行解码处理,得到候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;重构模块,用于将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;评估模块,用于将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;筛选模块,用于从所述候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。上述文本翻译方法、装置、计算机可读存储介质和计算机设备,对缺少指代词的源文本进行语义编码,得到源端向量序列,并继续对源端向量序列进行解码,得到候选译文、各候选译文对应的目标端向量序列、及各候选译文对应的翻译得分,这样可充分提取出源端和目标端的隐层信息。再通过融合源端和目标端的隐层信息可以共享两端的共性信息,在根据源文本进行重构处理时可以减少冗余信息并能避免重要信息的缺失,不需要额外的缺略词标注信息就可重构回包括缺少的指代词的词信息的重构隐层向量序列,这样使得确定的重构得分可以很好的衡量缺少的指代词信息的召回程度。因此,依据重构得分和翻译得分所筛选出的目标译文,可以减少翻译时缺少缺略代词所带来的影响,大大提高了翻译质量。一种模型训练方法,包括:获取样本源文本、参考目标译文、以及与所述源文本对应的标注词序列;所述标注词序列是对所述样本源文本进行缺略词标注处理所得到的词序列;将所述样本源文本输入机器翻译模型中进行训练,得到预测目标译文;依据所述参考目标译文和预测目标译文构建最大似然函数;通过所述机器翻译模型,获取与所述样本源文本对应的源端样本向量序列、以及目标端样本向量序列;依据所述样本源文本,对所述源端样本向量序列、以及目标端样本向量序列进行重构处理,得到样本重构隐层向量序列;依据所述样本源文本、所述样本重构隐层向量序列、所述源端样本向量序列、以及所述目标端样本向量序列构建重构评估函数;依据所述标注词序列和所述样本重构隐层向量序列,构建词序列标注损失函数;根据所述最大似然函数、所述重构评估函数和所述词序列标注损失函数,确定目标函数;将所述目标函数最大化时的模型参数作为机器翻译模型的模型参数,返回所述将所述样本源文本输入机器翻译模型中进行训练,得到预测目标译文的步骤并继续训练,直至满足训练停止条件时停止训练。在其中一个实施例中,所述模型训练方法还包括:获取与所述样本源文本对应的样本篇章文本;对所述样本篇章文本进行编码处理,得到样本篇章向量;融合所述样本篇章向量和所述样本重构隐层向量序列,得到样本融合向量序列;所述依据所述样本源文本、所述样本重构隐层向量序列、所述源端样本向量序列、以及所述目标端样本向量序列构建重构评估函数,包括:依据所述样本源文本、所述样本融合向量序列、所述源端样本向量序列、以及所述目标端样本向量序列构建重构评估函数;所述依据所述标注词序列和所述样本重构隐层向量序列,构建词序列标注损失函数,包括:依据所述标注词序列和所述样本融合向量序列,构建词序列标注损失函数。在其中一个实施例中,所述融合所述样本篇章向量和所述样本重构隐层向量序列,得到样本融合向量序列,包括:通过以下公式融合所述样本篇章向量和所述样本重构隐层向量序列:其中,表示与所述样本源文本中的第i个词对应的样本融合向量;fc()表示串联操作函数;M表示样本篇章向量;表示与所述样本源文本中的第i个词对应的样本重构隐层向量。在其中一个实施例中,所述模型训练方法还包括:获取待翻译文本的词序列;通过已训练的机器翻译模型的编码器,对所述待翻译文本的词序列进行语义编码处理,得到语义向量序列;通过所述已训练的机器翻译模型的解码器,根据所述机器翻译模型前次输出的目标词的词向量,对所述语义向量序列进行解码,得到当次的解码隐层向量;根据所述解码隐层向量,确定所述机器翻译模型当次输出的目标词;根据所述机器翻译模型输出的各目标词,生成所述待翻译文本对应的目标译文。一种模型训练装置,包括:样本获取模块,用于获取样本源文本、参考目标译文、以及与所述源文本对应的标注词序列;所述标注词序列是对所述样本源文本进行缺略词标注处理所得到的词序列;输入模块,用于将所述样本源文本输入机器翻译模型中进行训练,得到预测目标译文;构建模块,用于依据所述参考目标译文和预测目标译文构建最大似然函数;所述获取模块还用于通过所述机器翻译模型,获取与所述样本源文本对应的源端样本向量序列、以及目标端样本向量序列;重本文档来自技高网...

【技术保护点】
1.一种文本翻译方法,包括:获取源文本的词序列;所述源文本为指代词缺略文本;对所述源文本的词序列进行语义编码,得到源端向量序列;对所述源端向量序列进行解码处理,得到候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;从所述候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文。

【技术特征摘要】
1.一种文本翻译方法,包括:获取源文本的词序列;所述源文本为指代词缺略文本;对所述源文本的词序列进行语义编码,得到源端向量序列;对所述源端向量序列进行解码处理,得到候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;从所述候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述源文本对应的篇章文本;对所述篇章文本进行编码处理,得到篇章向量;将所述篇章向量,与各所述重构隐层向量序列分别进行融合,得到与各所述候选译文分别对应的第一融合向量序列;所述将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分,包括:将所述源文本的词序列,与各所述第一融合向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述源文本对应的篇章文本;对所述篇章文本进行编码处理,得到篇章向量;将所述篇章向量,与各所述目标端向量序列分别进行融合,得到与各所述候选译文分别对应的第二融合向量序列;所述将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列,包括:将所述词序列和所述源端向量序列,与各所述第二融合向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列。4.根据权利要求2所述的方法,其特征在于,所述对所述篇章文本进行编码处理,得到篇章向量,包括:确定所述篇章文本所包括的整句;对各整句分别进行分词处理,得到各整句各自对应的词序列;对各整句各自对应的词序列分别进行词级编码处理,得到与各整句分别对应的句子向量序列;将与各整句分别对应的句子向量序列进行句子级编码处理,得到与所述篇章文本对应的篇章向量。5.根据权利要求1所述的方法,其特征在于,所述对所述源端向量序列进行解码处理,得到候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分,包括:依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选词的词向量进行解码,并根据当次的目标端向量确定当次的多于一个的候选词;将依次解码得到的各候选词,按所述候选词的生成时序,拼接得到多于一组的候选译文;通过构成各候选译文的候选词所对应的目标端向量,确定与各候选译文分别对应的目标端向量序列;根据所述源端向量序列、历史解码得到的候选词、及历史解码得到的目标端向量序列,确定与各候选词对应的翻译得分;依据构成各所述候选译文的各候选词所对应的翻译得分,计算得到与各所述候选译文对应的翻译得分。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述源端向量序列对应的源端注意力分配权重向量;根据所述源端注意力分配权重向量、以及所述源端向量序列,计算得到源端内容向量;分别获取与各目标端向量序列对应的目标端注意力分配权重向量;根据所述目标端注意力分配权重向量、以及相对应的目标端向量序列,计算得到与各候选译文分别对应的目标端内容向量;所述将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列,包括:将所述词序列和所述源端内容向量,与各所述目标端内容向量分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列。7.根据权利要求6所述的方法,其特征在于,所述将所述词序列和所述源端内容向量,与各所述目标端内容向量分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列,包括:对于每组候选译文,分别根据所述源文本中当前词的前一词的词向量、前次重构得到的重构隐层向量、所述源端内容向量和各候选译文各自所对应的目标端内容向量,重构得到当次重构隐层向量;对于每组候选译文,分别将依次重构得到的重构隐层向量构成重构隐层向量序列;重构得到的重构隐层向量序列包括所述源文本所缺少的指代词的词信息。8.根据权利要求6所述的方法,其特征在于,所述将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分,包括:对于每组候选译文,分别根据所述源文本中当前词的前一词的词向量、所述源端内容向量、以及各候选译文对应的当次的重构隐层向量和目标端内容向量,计算得到与各候选译文分别对应、且与所述源文本中当前词对应的重构得分;对于每组候选译文,分别对与所述源文本中各词所对应的重构得分进行连乘运算,得到与各候选译文分别对应的重构得分。9.根据权利要求1所述的方法,其特征在于,所述从所述候选译文中筛选相应翻译得分和重构得分满足预设条件的目标译文,包括:对各所述候选译文分别对应的翻译得分和重构得分进行加权求和计算,得到各所述候选译文各自所对应的综合得分;从所述候选译文中,筛选相应综合得分为最高得分的候选译文;将筛选出的候选译文作为目标译文并输出。10.根据权利要求1至9中任一...

【专利技术属性】
技术研发人员:王龙跃涂兆鹏王星史树明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1