神经网络文本翻译模型的运行方法、装置、设备、及介质制造方法及图纸

技术编号:24854831 阅读:43 留言:0更新日期:2020-07-10 19:08
本公开实施例公开了一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质,所述神经网络文本翻译模型,包括编码器层、注意力机制层、以及解码器层,方法包括:将源语言词汇序列输入编码器层进行处理,以形成隐结构向量;控制注意力机制层生成词汇对齐表;将隐结构向量和翻译各个词汇时的上下文向量输入解码器层进行处理,以生成目标语言词汇序列;获取所述目标语言词汇序列中的未知文字,根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇;对所述源语言词汇进行翻译得到目标语言词汇;将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换,能减少乃至完全消除翻译结果中的未知文字。

【技术实现步骤摘要】
神经网络文本翻译模型的运行方法、装置、设备、及介质
本公开实施例涉及自然语言处理
,具体涉及一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质。
技术介绍
传统的SMT(统计机器翻译,StatisticalMachineTranslation)是从平行语料库获得翻译规则的概率,根据该概率将源语言的词汇或短语转换为目标语言的词汇或短语。但是,SMT方法没有反映出距离较远短语间的联系,因此译文常欠缺通顺性。与SMT相比,NMT(神经网络机器翻译,NeuralMachineTranslation)基于数值向量将源语言表示为分散表示,使用神经网络将其加以转换,根据获得的数值向量求出目标语言的词汇串,从而进行翻译,其通过利用RNN(循环神经网络,RecurrentNeuralNetwork)和LSTM(长短记忆网络,LongShortTermMemory)或GRU(门控循环单元,GatedRecurrentUnit),在考虑较长区间内词汇或短语彼此的联系的基础上进行翻译,因此译文通顺性显著提升。但是,翻译得到的译文还常存在未知词汇(unknownwords)或无意义词汇(nonsensewords)的问题。
技术实现思路
有鉴于此,本公开实施例提供一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质,以减少翻译结果中的未知文字。本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。第一方面,本公开实施例提供了一种神经网络文本翻译模型的运行方法,所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层,包括:将源语言词汇序列输入所述编码器层进行处理,以形成隐结构向量;控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表,其中所述词汇对齐表没有重复词汇;将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理,以生成目标语言词汇序列;获取所述目标语言词汇序列中的未知文字,根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇;对所述源语言词汇进行翻译得到目标语言词汇;将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。于一实施例中,根据所述注意力信息生成未知文字替换用词汇对齐表包括:根据所述注意力信息,通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联,根据关联结果生成未知文字替换用词汇对齐表,其中所述词汇单元包括一个或一个以上相邻的词汇。于一实施例中,在根据关联结果生成未知文字替换用词汇对齐表之前还包括:通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联;所述根据关联结果生成未知文字替换用词汇对齐表包括:根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。于一实施例中,在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后还包括:基于所述词汇对齐表,确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一目标语言词汇建立第三关联;基于所述词汇对齐表,确定所述源语言词汇序列中没有对应关系的第一源语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一源语言词汇建立第四关联;根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。于一实施例中,控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表包括:控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态,确定翻译所述源语言词汇序列中各个词汇时的上下文向量,以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。于一实施例中,控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态,确定翻译所述源语言词汇序列中各个词汇时的上下文向量,以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表包括:在翻译各个词汇时,确定当前翻译的目标语言词汇序列的序号,获取翻译该词汇时应注意的位置,对所述源语言词汇序列中各词汇计算注意力概率,将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后,确定最大值对应的词汇在所述源语言词汇序列的序号;根据翻译各个词汇时,将当前翻译的目标语言词汇序列的序号,和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联,根据关联结果生成未知文字替换用词汇对齐表。于一实施例中,对所述源语言词汇进行翻译得到目标语言词汇包括:采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇;或者通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。第二方面,本公开实施例还提供了一种神经网络文本翻译模型的运行装置,所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层,包括:编码单元,用于将源语言词汇序列输入所述编码器层进行处理,以形成隐结构向量;注意力控制单元,用于控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表,其中所述词汇对齐表没有重复词汇;解码单元,将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理,以生成目标语言词汇序列;未知文字定位单元,用于获取所述目标语言词汇序列中的未知文字,根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇;未知文字翻译单元,用于对所述源语言词汇进行翻译得到目标语言词汇;词汇替换单元,用于将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。于一实施例中,所述注意力控制单元用于:根据所述注意力信息,通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联,根据关联结果生成未知文字替换用词汇对齐表,其中所述词汇单元包括一个或一个以上相邻的词汇。于一实施例中,所述注意力控制单元用于,在根据关联结果生成未知文字替换用词汇对齐表之前:通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联;根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。于一实施例中,所述注意力控制单元用于:在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后,基于所述词汇对齐表,确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一目标语言词汇建立第三关联;基于所述词汇对齐表,确定所述源语言词汇序列中没有对应关系的第一源语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一源语言词汇建立第四关联;根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。本文档来自技高网...

【技术保护点】
1.一种神经网络文本翻译模型的运行方法,所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层,其特征在于,包括:/n将源语言词汇序列输入所述编码器层进行处理,以形成隐结构向量;/n控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表,其中所述词汇对齐表没有重复词汇;/n将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理,以生成目标语言词汇序列;/n获取所述目标语言词汇序列中的未知文字,根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇;/n对所述源语言词汇进行翻译得到目标语言词汇;/n将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。/n

【技术特征摘要】
1.一种神经网络文本翻译模型的运行方法,所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层,其特征在于,包括:
将源语言词汇序列输入所述编码器层进行处理,以形成隐结构向量;
控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表,其中所述词汇对齐表没有重复词汇;
将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理,以生成目标语言词汇序列;
获取所述目标语言词汇序列中的未知文字,根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇;
对所述源语言词汇进行翻译得到目标语言词汇;
将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。


2.根据权利要求1所述的神经网络文本翻译模型的运行方法,其特征在于,根据所述注意力信息生成未知文字替换用词汇对齐表包括:
根据所述注意力信息,通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联,根据关联结果生成未知文字替换用词汇对齐表,其中所述词汇单元包括一个或一个以上相邻的词汇。


3.根据权利要求2所述的神经网络文本翻译模型的运行方法,其特征在于,在根据关联结果生成未知文字替换用词汇对齐表之前还包括:
通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联;
所述根据关联结果生成未知文字替换用词汇对齐表包括:
根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。


4.根据权利要求3所述的神经网络文本翻译模型的运行方法,其特征在于,在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后还包括:
基于所述词汇对齐表,确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一目标语言词汇建立第三关联;
基于所述词汇对齐表,确定所述源语言词汇序列中没有对应关系的第一源语言词汇,根据所述注意力信息,确定注意力最高的单元与所述第一源语言词汇建立第四关联;
根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。


5.根据权利要求1所述的神经网络文本翻译模型的运行方法,其特征在于,控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息,根据所述注意力信息生成未知文字替换用词汇对齐表包括:
控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态,确定翻译所...

【专利技术属性】
技术研发人员:单杰
申请(专利权)人:江苏省舜禹信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1