当前位置: 首页 > 专利查询>南京大学专利>正文

机器翻译方法、装置及存储介质制造方法及图纸

技术编号:24576585 阅读:66 留言:0更新日期:2020-06-21 00:28
本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及存储介质。所述方法包括:根据待翻译的源端文本序列,调用编码器进行编码得到编码向量;根据编码向量,调用解码器进行解码得到中间结果;根据中间结果,通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,翻译概率分布用于指示多个候选词各自对应的选取概率;根据源端文本序列中各个词语的翻译概率分布,生成源端文本序列对应的目标译文。本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式,避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况,在保证解码速度的同时,提高了机器翻译模型的翻译质量。

Machine translation methods, devices and storage media

【技术实现步骤摘要】
机器翻译方法、装置及存储介质
本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及存储介质。
技术介绍
机器翻译(MachineTranslation,MT)为通过计算机设备将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。相关技术中,机器翻译通常采用序列到序列(Sequencetosequence,seq2seq)结构的模型,该模型由编码器(英文:encoder)和解码器(英文:decoder)组成。当该模型接收到一个文本序列时,编码器将该文本序列编码为编码向量,将编码向量输入到解码器中。该解码器从该编码向量中逐词解码出对应的译文。为了缓解一定训练不足和未登录词的影响,还可以利用预定义的双语词典在源端和目标端之前建立联系,并在该模型中引入了拷贝机制让模型学习词典中的关系。但是上述方法中依靠注意力机制提供的软对齐方式进行拷贝,在基于注意力机制的机器翻译模型中编码器-解码器层中使用的注意力是多头的,一般使用对整个多头注意力做剪枝得到的注意力作为拷贝的注意力,导致拷贝使用的注意力和生成使用的注意力不一致,从而影响最终的翻译质量。本文档来自技高网...

【技术保护点】
1.一种机器翻译方法,其特征在于,用于基于注意力机制的机器翻译模型中,所述机器翻译模型包括编码器、解码器和总结层,所述方法包括:/n根据待翻译的源端文本序列,调用所述编码器进行编码得到编码向量;/n根据所述编码向量,调用所述解码器进行解码得到中间结果;/n根据所述中间结果,通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,所述翻译概率分布用于指示多个候选词各自对应的选取概率;/n根据所述源端文本序列中各个词语的所述翻译概率分布,生成所述源端文本序列对应的目标译文。/n

【技术特征摘要】
1.一种机器翻译方法,其特征在于,用于基于注意力机制的机器翻译模型中,所述机器翻译模型包括编码器、解码器和总结层,所述方法包括:
根据待翻译的源端文本序列,调用所述编码器进行编码得到编码向量;
根据所述编码向量,调用所述解码器进行解码得到中间结果;
根据所述中间结果,通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,所述翻译概率分布用于指示多个候选词各自对应的选取概率;
根据所述源端文本序列中各个词语的所述翻译概率分布,生成所述源端文本序列对应的目标译文。


2.根据权利要求1所述的方法,其特征在于,所述编码器和所述解码器中采用的注意力为多头注意力,所述总结层用于将采用的注意力从所述多头注意力转化为具有多头注意力信息的所述单头注意力。


3.根据权利要求1所述的方法,其特征在于,所述根据所述中间结果,通过所述总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,包括:
将所述中间结果输入至所述总结层中,得到词典词语概率分布、生成概率和注意力概率分布,所述词典词语概率分布和所述生成概率是基于所述总结层输出的结果确定的,所述注意力概率分布是基于所述总结层的注意力层得到的结果确定的;
根据所述词典词语概率分布、所述生成概率和所述注意力概率分布,计算得到当前时刻的词语对应的所述翻译概率分布。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本集,所述训练样本集包括所述至少一组样本数据组,每组所述样本数据组包括样本文本序列和预先标注的正确译文;
对于所述至少一组样本数据组中的每组所述样本数据组,采用误差反向传播算法训练得到所述机器翻译模型。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对于至少一组所述样本数据组,为所述样本文本序列的指定词语添加预设标签,所述预设标签用于指示所述...

【专利技术属性】
技术研发人员:黄书剑莫绪言何亮戴新宇张建兵陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1