一种基于随机残差算法的深层神经机器翻译系统技术方案

技术编号:24708793 阅读:32 留言:0更新日期:2020-07-01 00:05
本发明专利技术公开一种基于随机残差算法的深层神经机器翻译系统,步骤为:采用基于自注意力机制的Transformer模型,构建深层神经机器翻译系统;对源语和目标语构成的双语平行句对进行分词,构建词表;在编码端,对源语言输入的信息逐层特征提取,每一子层按随机概率进行子层计算或者直接进入下一子层的计算;解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取;对解码端输出结果进行线性变换映射到目标端词表空间,计算损失实现模型训练;用训练好的模型进行翻译,对每个子层中的计算单元结果进行缩放。本发明专利技术方法随机跳过编码层中的子层操作,降低了模型产生过拟合现象的风险,增强了模型的性能。

【技术实现步骤摘要】
一种基于随机残差算法的深层神经机器翻译系统
本专利技术涉及一种神经机器翻译技术,具体为一种基于随机残差算法的深层神经机器翻译系统。
技术介绍
机器翻译(英语:MachineTranslation,经常简写为MT)属于计算语言学的范畴,是计算语言学的一个重要分支,具有十分重要的科学研究价值。它是利用计算机将一种语言转换成另一种语言的过程。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越关键的作用。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,一直到现在的神经机器翻译。随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架,其中性能最强大的则是基于自注意力机制的Transformer模型结构,在多个语种的上取本文档来自技高网...

【技术保护点】
1.一种基于随机残差算法的深层神经机器翻译系统,其特征在于包括以下步骤:/n1)采用基于自注意力机制的Transformer模型,将层正则化的位置提前,在编码端的子层中引入随机残差连接,构建基于前作Transformer的深层神经机器翻译系统;/n2)对源语和目标语构成的双语平行句对进行分词,构建词表,同时将其转换为词向量,用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入;/n3)在编码端,对源语言输入的信息进行逐层的特征提取,针对编码层中的每个子层,当信息传递至自身时,按照随机概率跳过该子层的计算,直接进行下一子层的计算;/n4)解码器端的每个解码层在接收到层输入后联合编...

【技术特征摘要】
1.一种基于随机残差算法的深层神经机器翻译系统,其特征在于包括以下步骤:
1)采用基于自注意力机制的Transformer模型,将层正则化的位置提前,在编码端的子层中引入随机残差连接,构建基于前作Transformer的深层神经机器翻译系统;
2)对源语和目标语构成的双语平行句对进行分词,构建词表,同时将其转换为词向量,用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入;
3)在编码端,对源语言输入的信息进行逐层的特征提取,针对编码层中的每个子层,当信息传递至自身时,按照随机概率跳过该子层的计算,直接进行下一子层的计算;
4)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取,直到得到顶层的输出;
5)对解码端的输出结果进行线性变换映射到目标端词表空间,使用softmax归一化操作得到目标语的词汇分布,通过计算词汇分布与真实标签数据间的差异来更新模型参数,实现模型的训练过程;
6)用训练好的模型进行翻译,在推理阶段,抛弃编码端子层随机残差机制,使用所有的编码层子层进行信息的抽取,同时对每个子层中的计算单元结果进行缩放。


2.按权利要求1所述的基于随机残差算法的深层神经机器翻译系统,其特征在于:步骤3)为模型的编码器计算过程,编码器包含多层结构,其中每一层由自注意力网络和前馈神经网络两个子层构...

【专利技术属性】
技术研发人员:刘兴宇朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1