【技术实现步骤摘要】
基于神经机器翻译系统的单词预测方法及系统
本专利技术涉及自然语言处理
,更具体地,涉及一种基于神经机器翻译系统的单词预测方法及系统。
技术介绍
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。神经机器翻译是近些年来出现的最新的机器翻译方法,在翻译质量上,较原有的统计机器翻译方法有了一个显著的提升。相比于之前的统计机器翻译方法,神经机器翻译所需的工程设计更少,翻译效果也更好。当其首次被提出时,便在中等规模的公共基准数据集上就达到了可与统计方法媲美的准确度。自那以后,研究者已经提出了很多改进神经机器翻译的技术,如今在翻译质量上已经大大超越了统计方法,包括Google翻译和百度翻译在内的诸多业内公司都在近期将自己的翻译系统从基于统计的方法更新为基于神经网络的方法,并广受好评。然而,机器翻译还远未得到完全解决。神经机器翻译虽然表现卓著,但仍然会做出一些人类翻译者永远不出做出的重大错误,例如:漏词、重复翻译、错误翻译、将句子单独进行翻译而不考虑其段落的上下文等等;而统计机器翻译在上述很多方面的表现是要优于神经机器翻译的,例如在忠实度和可解释性等方面。事实上,目前已经有研究人员注意到这方面的问题,并利用统计方法的信息和特征去对神经网络方法进行改进,但这些方法在利用统计方法的信息的广度和深度上仍然不够充分。例如目前这类方法利用最多的仍然是单词的翻译表,因为神经网络方法在生成句子时,是以单词作为最小的生成单位,利用单词翻译概率的翻译概率相对比较容易,但是单词的翻译表 ...
【技术保护点】
一种基于神经机器翻译系统的单词预测方法,其特征在于,所述单词预测方法包括:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
【技术特征摘要】
1.一种基于神经机器翻译系统的单词预测方法,其特征在于,所述单词预测方法包括:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。2.根据权利要求1所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。3.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述获得需要鼓励的目标单词集的方法包括:步骤S41:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;步骤S42:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;步骤S43:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤S44,否则执行步骤S45;步骤S44:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词;步骤S45:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。4.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:步骤S51:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语;步骤S52:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率;步骤S53:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。5.根据权利要求4所述的基于神经机器翻译系统的单词预测方法,其特征在于,根据以下公式确定当前源语言短语的注意力概率:其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标端单词yi和当前源语言短语fp之间...
【专利技术属性】
技术研发人员:张家俊,赵阳,王亦宁,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。