当前位置: 首页 > 专利查询>清华大学专利>正文

一种考虑评价指标的神经网络训练方法及装置制造方法及图纸

技术编号:13953842 阅读:66 留言:0更新日期:2016-11-02 09:58
本发明专利技术涉及一种考虑评价指标的神经网络训练方法及装置。所述方法包括:采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型;根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数;利用训练得到的神经网络翻译模型对测试样例进行翻译。本发明专利技术提供的装置基于上文所述的神经网络训练方法实现。本发明专利技术能够有效的训练神经网络翻译模型,获取更好的翻译效果。

【技术实现步骤摘要】

本专利技术涉及机器翻译
,具体涉及一种考虑评价指标的神经网络训练方法及装置
技术介绍
随着互联网的发展,用户对语言翻译的需求日益增长。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。互联网中所使用的语言众多,且每种语言都处于时时刻刻的发展变化中,同时还具有大量的多义性,加之如此大的翻译需求量,使得在线翻译无法满足用户的需求,导致用户在线翻译的使用体验不佳。为此需要对语言翻译服务提出更高的要求,以为用户提供高质量的翻译服务。目前常用神经网络翻译模型进行语言翻译。该神经网络翻译模型在研究论文以及翻译评测任务中都取得了与统计机器翻译相当的效果。用户也感觉到利用神经网络翻译模型进行语言翻译所得的翻译结果比较流畅,提升了用户体验。现有技术中神经网络翻译模型使用极大似然估计方法进行训练。专利技术人发现该极大似然估计方法只能优化标准参考译文的概率,不能直接优化评价指标。并且该方法脱离实际的解码过程导致其不能直接优化模型在实际解码中的表现。也就是说,极大似然估计进行训练并不能够完全地挖掘出神经网络翻译模型的潜力。因此当前急需一种新的神经网络翻译模型的训练方法,能够解决极大似然估计方法无法对神经网络翻译模型进行充分有效训练的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种考虑评价指标的神经网络训练方法及装置,可以解决现在技术中极大似然估计方法只能优化标准参考译文的概率导致神经网络翻译模型的无法得到充分有效训练的问题。第一方面,本专利技术提供了一种考虑评价指标的神经网络训练方法,所述方法包括:采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型;根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数;利用训练得到的神经网络翻译模型对测试样例进行翻译。可选地,所述根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数的步骤包括:利用源语言句子结合神经网络翻译模型生成多个翻译样例,所述多个翻译样例构成样例空间;利用损失函数计算所述多个翻译样例的损失;利用所述多个翻译样例的损失优化目标函数。可选地,所述损失函数Δ(y,y(s))=-sBLEU(y,y(s));式中,y为翻译样例;y(s)为第s个平行双语句中的标准目标语言句子,sBLEU为句子级别的BLEU得分。可选地,所述利用所述多个翻译样例的损失优化目标函数的步骤中目标函数为:式中,为翻译样例空间中的期望损失;式中,Q为各个翻译样例在翻译样例空间中的归一化概率; Q ( y | x ( s ) ; θ , α ) = P ( y | x ( s ) ; θ ) α Σ y ′ ∈ S ( x ( s ) ) P ( y ′ | x ( s ) ; θ ) α ; ]]>式中,α为控制平滑程度的超参数。可选地,所述采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型的步骤之前包括:采用平行双语句构建数据集并对所述数据集进行预处理;所述预处理包括对源语言和目标语言文本中的句子切分成词,并统一转换大小写与过滤无效字符。可选地,所述神经网络翻译模型采用循环神经网络翻译模型。第二方面,本专利技术实施例还提供了一种考虑评价指标的神经网络训练装置,所述装置包括:初始模型获取模块,用于采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型;初始模型训练模块,用于根据评价指标定义新的目标函数,用于训练所述初始模型以以得到最终的模型参数;翻译模块,用于利用训练得到的神经网络翻译模型对测试样例进行翻译。可选地,所述初始模型训练模块包括:样例空间构成单元,用于利用源语言句子结合神经网络翻译模型生成多个翻译样例,所述多个翻译样例构成样例空间;损失计算模块,用于利用损失函数计算所述多个翻译样例的损失;目标函数优化模块,用于利用所述多个翻译样例的损失优化所述目标函数。可选地,所述损失计算模块采用以下公式计算所述多个翻译样例的损失:Δ(y,y(s))=-sBLEU(y,y(s));式中,y为翻译样例;y(s)为第s个平行双语句中的标准目标语言句子,sBLEU为句子级别的BLEU得分。可选地,所述目标函数优化模块采用以下目标函数:式中,为翻译样例空间中的期望损失;式中,Q为各个翻译样例在翻译样例空间中的归一化概率; Q ( y | x ( s ) ; θ , α ) = P本文档来自技高网...

【技术保护点】
一种考虑评价指标的神经网络训练方法,其特征在于,所述方法包括:采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型;根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数;利用训练得到的神经网络翻译模型对测试样例进行翻译。

【技术特征摘要】
1.一种考虑评价指标的神经网络训练方法,其特征在于,所述方法包括:采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型;根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数;利用训练得到的神经网络翻译模型对测试样例进行翻译。2.根据权利要求1所述的神经网络训练方法,其特征在于,所述根据评价指标定义新的目标函数,用于训练所述初始模型以得到最终的模型参数的步骤包括:利用源语言句子结合神经网络翻译模型生成多个翻译样例,所述多个翻译样例构成样例空间;利用损失函数计算所述多个翻译样例的损失;利用所述多个翻译样例的损失优化目标函数。3.根据权利要求2所述的神经网络训练方法,其特征在于,所述损失函数Δ(y,y(s))=-sBLEU(y,y(s));式中,y为翻译样例;y(s)为第s个平行双语句中的标准目标语言句子,sBLEU为句子级别的BLEU得分。4.根据权利要求2所述的神经网络训练方法,其特征在于,所述利用所述多个翻译样例的损失优化目标函数的步骤中目标函数为:式中,为翻译样例空间中的期望损失;式中,Q为各个翻译样例在翻译样例空间中的归一化概率; Q ( y | x ( s ) ; θ , α ) = P ( y | x ( s ) ; θ ) α Σ y ′ ∈ S ( x ( s ) ) P ( y ′ | x ( s ) ; θ ) α ; ]]>式中,α为控制平滑程度的超参数。5.根据权利要求1所述的神经网络训练方法,其特征在于,所述采用极大似然估计方法对神经网络翻译模型以获取该神经网络翻译模型的初始模型的步骤之前包括:采用平行双语句构建数据集并对所述数据集进行预处理;所述预处理包括对源语言和目标语言文本中...

【专利技术属性】
技术研发人员:沈世奇刘洋孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1