一种基于迁移学习策略的蒙汉神经机器翻译方法技术

技术编号:19479963 阅读:19 留言:0更新日期:2018-11-17 10:31
本发明专利技术是为解决目前蒙汉机器翻译译文质量低、翻译效果差问题提出的。蒙古语属于低资源语言,收集大量的蒙汉平行双语语料库极为困难,本发明专利技术中迁移学习策略可以有效的解决这一难题。迁移学习策略是运用已有的知识对不同但是相关领域问题进行求解的方法。首先,利用大规模的英‑汉平行语料基于神经机器翻译框架进行训练;其次,将大规模的英‑汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用现有的蒙‑汉平行语料训练神经机器翻译模型;最后,将基于迁移学习策略的神经机器翻译译文和统计机器翻译译文就BLEU值和译文流利度进行对比和评价。通过运用控制变量法,得出迁移学习策略有效提高了蒙汉机器翻译性能。

【技术实现步骤摘要】
一种基于迁移学习策略的蒙汉神经机器翻译方法
本专利技术属于神经机器翻译
,特别涉及一种基于迁移学习策略的蒙汉神经机器翻译方法。
技术介绍
机器翻译指使用机器(计算机)自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。近几年随着国际间交流的日趋频繁,机器翻译作为突破语言障碍的重要手段,在人们的生产、生活中发挥着越来越大的作用。神经机器翻译作为数据驱动方法的机器翻译中的一种,高度依赖平行语料数据结构的规模、质量。由于神经网络参数规模庞大,只有当训练语料库具有一定的规模后,神经机器翻译才会显著超过统计机器翻译译文质量。然而,目前可用于实验的蒙汉平行语料资源十分有限,收集大量蒙汉双语平行语料库需要耗费大量的人力、物力极为困难。蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性使得蒙汉机器翻译研究进展相对缓慢,其中,蒙汉平行语料数据集匮乏是阻碍蒙汉机器翻译研究的一个不容忽视的大问题。而迁移学习的核心思想是把训练源任务获取的知识存储下来,应用于新的(不同,但相近任务)任务中。迁移学习策略允许借用大量已有的标记数据来训练网络将其知识迁移到标记数据较少的模型中。目前,已有一些神经机器翻译技术针对低资源语言存在平行语料库匮乏问题被提出。由于蒙-汉平行语料匮乏以及蒙古语语法本身复杂性使得翻译译文质量并不理想,翻译过程仍存在严重的数据稀疏现象。迁移学习策略将已学习到的知识应用到相近任务上,减少应用任务的训练数据量,为达到通用人工智能提供了可能性。相比从头训练神经网络迁移学习策略可以实现将已经训练好的网络结构的参数权重作为预训练,从而加快翻译模型训练进展以及提升最终的翻译译文质量。
技术实现思路
为了克服上述现有技术的缺点,本专利技术从缓解蒙汉机器翻译存在数据稀疏问题和提高蒙汉机器翻译译文质量的角度出发,针对低资源语言提出了一种简单有效的迁移学习策略。目前,除了中英语言拥有大量的双语平行语料库资源,其他语言都普遍存在平行语料库匮乏的问题。本专利技术将大量英-汉平行语料库资源训练得到网络参数权重,将其迁移到蒙汉神经机器翻译模型中,再利用蒙-汉平行语料库训练得到蒙汉神经翻译模型。从而解决了蒙-汉平行语料库不足问题,达到提升蒙汉机器翻译性能的目标。为了实现上述目的,本专利技术采用的技术方案是:一种基于迁移学习策略的蒙汉神经机器翻译方法,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。其具体步骤可描述如下:01:对中文和英文语料进行数据集的划分以及数据预处理工作;数据集划分是指划分为训练集、验证集和测试集,数据预处理工作包括中文分词和英文预处理;02:构建RNN循环神经机器翻译模型构架,包括编码器和解码器;03:利用大规模的英汉平行语料进行英汉神经机器翻译模型训练,模型训练中利用随机梯度下降(SGD)对网络参数进行调整和优化;04:将训练好的英汉神经机器翻译模型网络参数权重迁移到蒙汉神经机器翻译模型即对蒙汉神经网络进行参数初始化代替随机初始化;06:利用BLEU值对测试集进行译文评测。其中,在进行模型训练前,最好对英汉平行语料和蒙汉平行语料库资源进行数据预处理。所述数据预处理是利用双语平行语料进行神经机器翻译模型训练时要做的准备工作。所述数据预处理以斯坦福大学自然语言实验室开源软件为工具,包括:1)利用分词工具stanford-segmenter对中文语料进行分词操作;2)利用英文预处理工具stanford-ner对英文语料进行预处理操作英语语料进行预处理操作以及汉语语料分词处理;所述预处理基于条件随机场(CRF)模型,即以最大熵模型为主要来源的条件概率模型,该模型是一个根据给定的输入节点,找到输出节点的条件概率的无向图模型。CRF模型定义为G=(V,E),是一个无向图,V是节点集合,是随机变量Y的集合,Y={Yi|1≤i≤m},E为无向边集合,对于输入一个句子的m个需要标记单元,E={Yi-1,Yi|1≤i≤m},是m-1个边构成的线性链;给定一个需要标记的序列a,其对应的标记序列b的条件概率公式为:其中,ii是序列的下标,Z(a)为归一化函数,λk和λιk是模型的参数,k的含义是每条边和相应结点的特征数量,fk和fιk是一个二值特征函数。所述神经机器翻译模型公式为:其中,是模型的参数,是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。所述神经机器翻译模型的网络类型是RNN循环神经网络,RNN循环神经网络前向传播算法中,对于任意一个序列索引号t,隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到:h(t)=σ(Ux(t)+Wh(t-1)+b)其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。所述模型训练中,编码器和解码器进行联合训练,模型公式为:其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,利用训练学到的网络参数权重,对蒙汉神经网络进行参数初始化代替随机初始化,实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。所述利用蒙汉平行语料进行蒙汉神经机器翻译模型训练时,英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置需要一致。进一步地,将蒙汉神经机器翻译原型系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价,达到最终提高蒙汉机器翻译性能的目的。所述BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好,BLEU值的公式为:其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:BP=emin(1-r/h,0)其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。所述迁移学习策略核心思想是把训练源任务/域获取的知识存储下来,应用于新的(不同,但相近任务)任务/域中。本专利技术是基于迁移学习策略的蒙汉神经机器翻译方法,研究方法属于基于模型的迁移学习方法。在基于模型的迁移学习方法中假设源域和目标域有可以共享的模型参数,具体的迁移方法是由源域学习到的模型运用到目标域上,再根据目标域学习新的模型。与现有的蒙汉机器翻译方法相比,本专利技术首先利用大规模的英汉双语平行语料训练得到翻译模型,同时保证英汉平行语料高质量、广覆盖率;其次,根据不同语言间机器翻译的相关性,将英汉翻译模型学习的网络参数迁移到蒙汉机器翻译模型中;最后,利用现有蒙汉平行语料训练蒙汉神经机器翻译,本专利技术提出的迁移学习策略实现方法简单可行,本文档来自技高网
...

【技术保护点】
1.一种基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。

【技术特征摘要】
1.一种基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。2.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,在进行模型训练前,对英汉平行语料和蒙汉平行语料库资源进行数据预处理。3.根据权利要求2所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述数据预处理以斯坦福大学自然语言实验室开源软件为工具,包括:1)利用分词工具stanford-segmenter对中文语料进行分词操作;2)利用英文预处理工具stanford-ner对英文语料进行预处理操作英语语料进行预处理操作以及汉语语料分词处理;所述预处理基于条件随机场(CRF)模型,CRF模型定义为G=(V,E),是一个无向图,V是节点集合,是随机变量Y的集合,Y={Yi|1≤i≤m},E为无向边集合,对于输入一个句子的m个需要标记单元,E={Yi-1,Yi|1≤i≤m},是m-1个边构成的线性链;给定一个需要标记的序列a,其对应的标记序列b的条件概率公式为:其中,ii是序列的下标,Z(a)为归一化函数,λk和λιk是模型的参数,k的含义是每条边和相应结点的特征数量,fk和fιk是一个二值特征函数。4.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述神经机器翻译模型公式为:其中,是模型的参数,是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。5.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述神经机器翻译模型的网络类型是RNN循环神经网络,RNN循环...

【专利技术属性】
技术研发人员:苏依拉赵亚平牛向华
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1