一种基于深度神经网络的机器翻译方法及系统技术方案

技术编号:23498045 阅读:190 留言:0更新日期:2020-03-13 13:08
本发明专利技术涉及一种基于深度神经网络的机器翻译方法及系统,是为了解决现有的深度神经翻译方法由于词典的限制,使得翻译结果中会出现未登录词,并且过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多的缺点而提出的,包括:对训练预料进行分词处理,得到字符向量和词向量;构造字符级双向RNN和词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式;计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量;将对齐模型生成的语境向量作为两层GRU的输入,计算得到目标字符生成概率;构建深度神经网络,通过深度神经网络进行翻译。本发明专利技术适用于机器翻译系统。

A method and system of machine translation based on deep neural network

【技术实现步骤摘要】
一种基于深度神经网络的机器翻译方法及系统
本专利技术涉及机器翻译领域,具体涉及一种基于深度神经网络的机器翻译方法及系统。
技术介绍
机器翻译是自然语言处理中重要且相对较难的任务,通过计算机强大的计算能力,把源语言句子翻译成为目标语言句子。经历了基于规则的机器翻译系统,基于实例的机器翻译系统发展到今天的基于统计的机器翻译系统。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸,在近几年得到了迅猛的发展,且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于实现了端到端(end-to-end)的翻译过程,不像传统的基于统计的机器翻译方法需要独立抽取特征,把特征抽取和翻译模型的训练放到一起来做,这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点。很多有机器翻译业务的公司(如Google,Baidu)也把目光转向了深度神经翻译方法,也说明了深度神经翻译方法的前景。在传统深度神经翻译方法中,存在这样的一些问题:由于词典的限制,使得翻译结果中会出现未登录词(UnknownWord);过分关注于源语言全本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的机器翻译方法,其特征在于,包括:/n步骤一、对训练预料进行分词处理,得到字符向量

【技术特征摘要】
1.一种基于深度神经网络的机器翻译方法,其特征在于,包括:
步骤一、对训练预料进行分词处理,得到字符向量和词向量
步骤二、将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为表示字符级的输入序列的长度;将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式表示词级的输入序列的长度;
步骤三、计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
步骤四、将对齐模型生成的语境向量作为两层GRU的输入,计算得到目标字符生成概率;
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。


2.根据权利要求1所述的基于深度神经网络的机器翻译方法,其特征在于,步骤一具体为:
使用jieba分词对于中文进行分词,使用moses工具包中的tokenization工具对于英文进行分词,中文分词时加入名实体词典;
使用GloVe对于分好词的中英文分别作预训练,预训练的过程为:将低频词替代为词表示<unk>并在训练过程中训练<unk>的词向量,根据词典大小生成one-hot编码放到GloVe中进行训练。


3.根据权利要求1或2所述的基于深度神经网络的机器翻译方法,其特征在于,步骤二具体为:
步骤二一、根据以下公式构造字符级GRU:


















其中σ表示sigmoid函数;tanh表示双曲正切函数;表示元素间hardmard乘积;是通过预训练获得的第t个时刻的字符向量;n表示空间R的维度;是第t个时刻的隐变量向量;分别是第t个时刻语境向量和其中间表示形式;分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;是三个控制门的参数矩阵;是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的;
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;将前向RNN按照从到的顺序读取字符向量并按照步骤二一中的公式计算得到前向隐变量序列将步骤二一中公式的t-1时刻置换为t+1时刻进行计算即为字符级后向RNN,计算得到的后向隐变量序列为将前向隐变量序列和后向隐变量序列进行连接得到字符隐变量进而得到字符级隐变量序列用于作为源句子的向量表示形式;
步骤二三、通过以下公式实现字符级到词级的全局对齐:






其中为字符级语境向量;双仿射函数用于计算字符级隐变量和词级隐变量的相似度;为参数矩阵,用于调节每一维的重要性;
步骤二四、将语境向量与词向量连接形成作为词级GRU的输入,并根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式其中词级双向RNN与字符级双向RNN的结构相同。


4.根据权利要求3所述的基于深度神经网络的机器翻译方法,其特征在于,步骤三具体为:
步骤三一、通过以下公式进行局部软对齐:






其中S表示源句子长度;表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置;高斯分布...

【专利技术属性】
技术研发人员:刘宇鹏张晓晨
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1