一种文本翻译的方法以及相关装置制造方法及图纸

技术编号:24208002 阅读:18 留言:0更新日期:2020-05-20 15:31
本发明专利技术公开了一种文本翻译的方法,该方法应用于人工智能领域,该方法包括:获取待翻译文本序列;对待翻译文本序列进行编码处理,得到第一隐含状态序列;获取第一状态向量;根据第一状态向量以及第一隐含状态序列,生成第二隐含状态序列;根据第二隐含状态序列以及第一状态向量,生成当前词语所对应的上下文向量;根据上下文向量、第一状态向量以及第一目标词,确定第二目标词。本发明专利技术还公开了一种文本翻译装置。本发明专利技术实施例在对源语言文本所对应的待翻译文本序列进行编码的过程中,引入了解码得到的上下文向量,由此增强对待翻译文本序列的表示,从而提升翻译质量。

A method of text translation and related devices

【技术实现步骤摘要】
一种文本翻译的方法以及相关装置本申请为2018年11月28日提交中国专利局、申请号为201811448899.8、专利技术名称为“一种文本翻译的方法以及相关装置”的中国专利申请的分案申请。
本专利技术涉及人工智能领域,尤其涉及一种文本翻译的方法以及相关装置。
技术介绍
近年来,编码器——解码器框架在文本处理任务中取得突出的成果,文本处理任务包括机器对话、机器问答以及机器翻译等。在机器翻译这个项目中,可以对不同语种进行翻译,比如输入序列是英文句子,那么输出可以是该英文句子的中文翻译结果。目前,利用编码器——解码器框架作为翻译模型进行翻译的过程具体为,首先将源语言句子转化成向量表示,再将向量表示的序列输入至编码器,编码后得到中间向量,最后,由解码器对该中间向量进行解码,从而生成目标语言所对应的翻译结果。然而,采用编码器——解码器框架进行翻译,虽然可以达到翻译的目的,但是翻译质量并不高,尤其对于长句而言,更容易出现翻译上的偏差,从而导致翻译效果较差。
技术实现思路
本专利技术实施例提供了一种文本翻译的方法以及相关装置,在对源语言文本所对应的待翻译文本序列进行编码的过程中,引入了解码得到的上下文向量,由此增强对待翻译文本序列的表示,加强对源语言文本的理解,从而提升翻译质量,尤其对于长句而言,翻译效果更佳。有鉴于此,本专利技术的第一方面提供了一种文本翻译的方法,包括:获取待翻译文本序列,其中,所述待翻译文本序列为根据源语言文本生成的,所述源语言文本包括至少一个词语;<br>对所述待翻译文本序列进行编码处理,得到第一隐含状态序列;获取第一状态向量,其中,所述第一状态向量为当前词语的上一个词语所对应的状态向量,所述当前词语表示所述源语言文本中待翻译的词语,所述上一个词语表示所述源语言文本中已被翻译的词语;根据所述第一状态向量以及所述第一隐含状态序列,生成第二隐含状态序列;根据所述第二隐含状态序列以及所述第一状态向量,生成所述当前词语所对应的上下文向量;根据所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词,其中,所述第一目标词为所述上一个词语所对应的翻译结果,所述第二目标词为所述当前词语所对应的翻译结果。获取待翻译文本序列,其中,所述待翻译文本序列包括至少一个向量,所述待翻译文本序列为根据源语言文本生成的;本专利技术的第二方面提供了一种文本翻译装置,包括:获取模块,用于获取待翻译文本序列,其中,所述待翻译文本序列为根据源语言文本生成的,所述源语言文本包括至少一个词语;编码模块,用于对所述获取模块获取的所述待翻译文本序列进行编码处理,得到第一隐含状态序列;所述获取模块,还用于获取第一状态向量,其中,所述第一状态向量为当前词语的上一个词语所对应的状态向量,所述当前词语表示所述源语言文本中待翻译的词语,所述上一个词语表示所述源语言文本中已被翻译的词语;生成模块,用于根据所述获取模块获取的所述第一状态向量以及所述第一隐含状态序列,生成第二隐含状态序列;所述生成模块,还用于根据所述第二隐含状态序列以及所述第一状态向量,生成所述当前词语所对应的上下文向量;确定模块,用于根据所述生成模块生成的所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词,其中,所述第一目标词为所述上一个词语所对应的翻译结果,所述第二目标词为所述当前词语所对应的翻译结果。在一种可能的设计中,在本申请实施例的第二方面的第一种实现方式中,所述生成模块,具体用于根据目标隐含状态向量以及所述第一状态向量计算门函数,其中,所述目标隐含状态向量属于所述第一隐含状态序列中的一个隐含状态向量;根据所述门函数以及所述目标隐含状态向量计算目标浅层理解向量;根据所述目标浅层理解向量生成浅层理解序列,其中,所述浅层理解序列与所述第一隐含状态序列具有对应关系;对所述浅层理解序列进行编码处理,得到所述第二隐含状态序列。在一种可能的设计中,在本申请实施例的第二方面的第二种实现方式中,所述生成模块,具体用于采用如下方式计算所述门函数:其中,所述表示所述门函数,所述σ(·)表示sigmoid函数,所述Wz表示第一网络参数,所述Uz表示第二网络参数,所述bz表示第三网络参数,所述hj表示所述目标隐含状态向量,所述si-1表示所述第一状态向量;所述根据所述门函数以及所述目标隐含状态向量计算目标浅层理解向量,包括:采用如下方式计算所述目标浅层理解向量:其中,所述表示所述目标浅层理解向量,所述⊙表示元素级相乘。在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,所述生成模块203,具体用于采用如下方式计算所述第二隐含状态序列:其中,所述表示所述第二隐含状态序列,所述encoderre(·)表示第二次编码处理,所述表示第一个浅层理解向量,所述表示所述目标浅层理解向量,所述表示第J个浅层理解向量。在一种可能的设计中,在本申请实施例的第二方面的第四种实现方式中,所述文本翻译装置还包括计算模块;所述计算模块,用于所述确定模块根据所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词之后,根据所述上下文向量、第二状态向量以及所述第二目标词所对应的词向量,计算目标输出概率,其中,所述第二状态向量为所述当前词语所对应的状态向量;所述计算模块,还用于根据所述目标输出概率计算连续采样向量,其中,所述连续采样向量用于生成连续采样序列;所述计算模块,还用于根据所述连续采样向量计算离散采样向量,其中,所述离散采样向量用于生成离散采样序列;所述计算模块,还用于根据所述离散采样向量计算编码处理结果;所述确定模块,还用于根据所述计算模块计算得到的所述编码处理结果确定处理模式,其中,所述处理模式包括第一处理模式以及第二处理模式,所述第一处理模式表示采用已有的编码结果,所述第二处理模式表示所述第一隐含状态序列进行编码处理。在一种可能的设计中,在本申请实施例的第二方面的第五种实现方式中,所述计算模块,具体用于采用如下方式计算所述目标输出概率:π(ai\mi)=softmax(Wpmi+bp);mi=tanh(W′p[si;Eyi;ci]+b′p);其中,所述π(ai\mi)表示所述目标输出概率,所述ai表示输出动作,所述mi表示策略函数的状态,所述Wp表示第四网络参数,所述bp表示第五网络参数,所述W′p表示第六网络参数,所述b'p表示第七网络参数,所述si表示所述第二状态向量,所述Eyi表示所述第二目标词所对应的词向量,所述ci表示所述上下文向量,所述softmax(·)表示归一化指数函数,所述tanh(·)表示双曲正切函数。在一种可能的设计中,在本申请实施例的第二方面的第六种实现方式中,所述计算模块,具体用于采用如下方式计算所述连续采样向量:其中,所述表示所述连续采样向量,本文档来自技高网...

【技术保护点】
1.一种文本翻译的方法,其特征在于,包括:/n获取待翻译文本序列所对应的第一隐含状态序列,其中,所述待翻译文本序列为根据源语言文本生成的,所述源语言文本包括至少一个词语;/n获取第一状态向量,其中,所述第一状态向量为当前词语的上一个词语所对应的状态向量,所述当前词语表示所述源语言文本中待翻译的词语,所述上一个词语表示所述源语言文本中已被翻译的词语;/n根据所述第一状态向量以及所述第一隐含状态序列,生成所述当前词语所对应的上下文向量;/n根据所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词,其中,所述第一目标词为所述上一个词语所对应的翻译结果,所述第二目标词为所述当前词语所对应的翻译结果。/n

【技术特征摘要】
1.一种文本翻译的方法,其特征在于,包括:
获取待翻译文本序列所对应的第一隐含状态序列,其中,所述待翻译文本序列为根据源语言文本生成的,所述源语言文本包括至少一个词语;
获取第一状态向量,其中,所述第一状态向量为当前词语的上一个词语所对应的状态向量,所述当前词语表示所述源语言文本中待翻译的词语,所述上一个词语表示所述源语言文本中已被翻译的词语;
根据所述第一状态向量以及所述第一隐含状态序列,生成所述当前词语所对应的上下文向量;
根据所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词,其中,所述第一目标词为所述上一个词语所对应的翻译结果,所述第二目标词为所述当前词语所对应的翻译结果。


2.根据权利要求1所述的方法,其特征在于,所述获取待翻译文本序列所对应的第一隐含状态序列,包括:
获取所述源语言文本;
根据所述源语言文本生成所述待翻译文本序列;
采用编码器对待翻译文本序列进行编码处理,得到第一隐含状态序列。


3.根据权利要求1所述的方法,其特征在于,所述根据所述第一状态向量以及所述第一隐含状态序列,生成所述当前词语所对应的上下文向量,包括:
根据所述第一状态向量以及所述第一隐含状态序列,生成第二隐含状态序列;
基于所述第二隐含状态序列以及所述第一状态向量,通过注意力模型获取所述当前词语所对应的上下文向量。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一状态向量以及所述第一隐含状态序列,生成第二隐含状态序列,包括:
根据目标隐含状态向量以及所述第一状态向量计算门函数,其中,所述目标隐含状态向量属于所述第一隐含状态序列中的一个隐含状态向量;
根据所述门函数以及所述目标隐含状态向量计算目标浅层理解向量;
根据所述目标浅层理解向量生成浅层理解序列,其中,所述浅层理解序列与所述第一隐含状态序列具有对应关系;
对所述浅层理解序列进行编码处理,得到所述第二隐含状态序列。


5.根据权利要求1所述的方法,其特征在于,所述根据所述上下文向量、所述第一状态向量以及第一目标词,确定第二目标词,包括:
采用解码器对所述上下文向量、所述第一状态向量以及第一目标词进行解码处理,得到第二目标词。


6.根据权利...

【专利技术属性】
技术研发人员:涂兆鹏耿昕伟王龙跃王星
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1