一种基于单语语料库训练的蒙汉互译方法技术

技术编号:19479965 阅读:50 留言:0更新日期:2018-11-17 10:31
一种基于单语语料库训练的蒙汉互译方法,基于两个分别针对蒙语和汉语的自动编码器,具体采用降噪自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小,从而完善蒙汉机器翻译系统,达到较好翻译的目标。本发明专利技术将最大限度利用现有蒙汉单语语料缓解因蒙汉平行语料缺乏而导致的蒙汉互译译文质量不高的问题,并且将辐射带动蒙古语语言学相关研究,对、机器翻译、多语言语音技术的研发等提供研究依据,将推动蒙古语信息化处理进程,为其它少数民族语言开展相关研究提供参考,具有一定的理论意义。

【技术实现步骤摘要】
一种基于单语语料库训练的蒙汉互译方法
本专利技术属于机器翻译
,特别涉及一种基于单语语料库训练的蒙汉互译方法。
技术介绍
机器翻译研究如何利用计算机实现自然语言之间的自动转换,是人工智能和自然语言处理领域的重要研究方向之一。机器翻译作为突破不同国家和民族之间信息传递所面临的“语言屏障”问题的关键技术,对于促进民族团结、加强文化交流和推动对外贸易具有重要意义。近年来,机器翻译受到越来越多的关注。一方面,机器翻译技术拥有迫切的社会需求,并不完美的机器翻译技术在产业界的应用越来越广泛,实时语音翻译系统和在线翻译服务已进入日常生活;另一方面,机器翻译一直是学术界研究的一个热点,关于机器翻译技术的研究论文在数量上长期占据计算机语言学(或自然语言处理)领域各大学术会议的头名。在我国经济快速发展与社会不断进步的背景下,蒙古族与汉族之间的交流日益频繁。蒙古族是我国五十六个民族的重要组成之一,是草原游牧民族的典型代表和草原文化的重要传承者,蒙古语则是我国蒙古族同胞使用的主要语言。伴随着我国经济的发展,蒙古族和汉族同胞要进行交流就需要翻译,而人工翻译成本较高,这就促使蒙汉机器翻译有了用武之地,并且机器翻译也能极大的促进两种文化的融合和信息共享。对于两种文化的价值观相互渗透,凝聚民族的核心文化,促进良好民族关系的建立都具有重要的意义。从20世纪40年代末至今这六十多年的时间里,追随着机器翻译发展的脚步,研究人员也从未停止过机器翻译在蒙汉翻译中应用的研究。从基于统计的蒙汉机器翻译到基于实例的蒙汉机器翻译,再到基于深度学习的蒙汉机器翻译,虽然在蒙汉机器翻译研究上的道路是曲折的,但是前途是光明的。虽然端到端的神经机器翻译近年来取得了令人瞩目的进展,但是端到端的神经机器翻译系统需要依赖平行语料库来进行参数估计。由于平行语料库在数量,质量和覆盖面方面通常非常有限,特别是对于像传统蒙古语这样的低资源语言,因此利用单语语料库来提高神经机器翻译的性能是很有必要的。作为一种数据驱动方法,神经机器翻译的性能高度依赖于平行语料库的规模、质量和领域覆盖面。由于神经网络的参数规模庞大,只有当训练语料库达到一定规模,神经机器翻译才会显著超过统计机器翻译,然而,除了中文、英文等资源丰富语言,世界上绝大多数语言都缺乏大规模、高质量、广覆盖率的平行语料库。即使对中文和英文,现有平行语料库的领域也主要集中在政府文献和时政新闻,对于绝大多数领域而言依然严重缺乏数据。因此,如何充分利用现有数据来缓解资源稀缺问题成为神经机器翻译的一个重要研究方向。
技术实现思路
为了克服上述现有技术的缺点,充分利用现有数据来缓解资源缺乏问题,本专利技术的目的在于提供一种基于单语语料库训练的蒙汉互译方法,将给定未标记(即单语语料库)数据,引入降噪自动编码器和跨域训练来学习蒙汉两种语言之间的翻译,运用对抗训练在两种语言之间学习一个相似的潜在空间,建立降噪自动编码器损失函数,建立翻译过程损失函数以及建立鉴别器损失函数,设置约束条件,使得上述三种不同的损失之和最小。从而完善蒙汉机器翻译系统,达到较好译文翻译的目标。为了实现上述目的,本专利技术采用的技术方案是:一种基于单语语料库训练的蒙汉互译方法,基于两个分别针对蒙语和汉语的自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小。所述自动编码器为基于LSTM的自动编码器。所述蒙汉互译翻译模型的训练步骤如下:(1)使用FastText学习得到蒙汉双语词典,使用词典翻译得到编码器-解码器结构的蒙汉互译初始翻译模型;(2)训练两个自动编码器,使其能够在给定一个带噪声的句子时重构变为不含噪声的句子;(3)训练鉴别器,学习得到一个对齐的潜在空间;(4)训练蒙语自动编码器和汉语解码器,同时训练汉语自动编码器和蒙语解码器,更新初始翻译模型,使得译文质量一步步提升。以一种无监督的方法学习句子特征,将自动编码器降噪的损失函数定义为:其中,Lauto()为自动编码器的降噪损失函数,θenc是在源语言和目标语言之间共享的参数,θdec是不依赖于输出语言的矢量参数,Z是隐藏状态序列,l是源语言,x是输入句子,Dl为单语语料库,C()是噪声函数,C(x)是输入句子x中添加噪声之后得到的新的句子,e()是自动编码器,d()是解码器,是重构之后的句子,△是衡量和x之间差异的度量,为词级交叉熵损失之和,E为期望,表示输入的分布取决于源语言l,并且采用损失的平均值,符号~表示来自概率分布的意思。所述添加噪声通过如下步骤实现:首先,以概率p_wd随机地从输入句子中删除一个字;其次,每个字都使用约束公式|σ(i)-i|≤k进行原始位置偏移,其中σ表示第i个字的移动位置,一个字最多能够向右或者向左移动k个字的位置。在蒙汉两种语言之间训练相似词向量空间,之后设置规则对蒙汉两种语言进行重构,训练相似词向量空间的过程如下:蒙语/汉语自动编码器将加入噪声的输入句子C(x)编码,得到源语言词向量序列Zsrc,汉语/蒙语解码器解码得到重构之后的句子蒙语/汉语自动编码器将目标语言句子C(y)编码,得到目标语言词向量序列Ztgt,汉语/蒙语解码器解码得到源语言输入句子x;使用初始翻译模型第t次迭代之后得到的翻译模型M(t)翻译句子,y=M(t)(x),经过训练得到一个Zsrc和Ztgt相似的向量空间。定义将输入句子x映射到输出句子y的过程为跨域训练,跨域训练损失函数即翻译损失函数,其表达式为:Lcd()为翻译损失函数,l1是源/目标语言域,l2是与l1对应的目标/源语言域,Dl1为l1的单语语料库。在进行跨域训练的同时还进行对抗训练,学习得到一个对齐的潜在空间,其方法是:利用一个鉴别器,接收蒙汉两种语言降噪自动编码器中编码器的输出,对降噪自动编码器中编码器的输出进行操作,鉴别器中的序列是(z1,z2,...zm)的一个潜在向量序列并产生关于自动编码器输入语句的语言的二进制预测:其中pD:Rn→[0;1],0对应于源域,1对应用于目标域,鉴别器被训练以通过最小化下列交叉熵损失函数来预测语言:其中(xi,li)对应于从蒙汉两个单语语料库中均匀采样的句子和语言id对,θD是鉴别器的参数,θenc是自动编码器,Z是自动编码器字嵌入,鉴别器损失函数定义为:如果li=l2则lj=l1,相反如果li=l1则lj=l2。所述使得三种损失之和最小的最终目标函数是:L(θenc,θdec,Z)=λauto[Lauto(θenc,θdec,Z,src)+Lauto(θenc,θdec,Z,tgt)]+λcd[Lcd(θenc,θde,Z,src,tgt)+Lcd(θenc,θdec,Z,tgt,src)]+λadvLadv(θenc,Z|θD)其中λauto,λcd,和λadv是超参数,用于加权自动编码器降噪损失、翻译损失和鉴别器损失,同时,鉴别器损失LD被最小化用以更新鉴别器。与现有技术相比,本专利技术将最大限度利用现有蒙汉单语语料缓解因蒙汉平行语料缺乏而导致的蒙汉互译译文质量不高的问题,并且将辐射带动蒙古语语言学以及蒙古语语音学的相关研究,对计算机辅助翻译、机器翻译、翻译培训、翻译本文档来自技高网
...

【技术保护点】
1.一种基于单语语料库训练的蒙汉互译方法,其特征在于,基于两个分别针对蒙语和汉语的自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小。

【技术特征摘要】
1.一种基于单语语料库训练的蒙汉互译方法,其特征在于,基于两个分别针对蒙语和汉语的自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小。2.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述自动编码器为基于LSTM的自动编码器。3.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述蒙汉互译翻译模型的训练步骤如下:(1)使用FastText学习得到蒙汉双语词典,使用词典翻译得到编码器-解码器结构的蒙汉互译初始翻译模型;(2)训练两个自动编码器,使其能够在给定一个带噪声的句子时重构变为不含噪声的句子;(3)训练鉴别器,学习得到一个对齐的潜在空间;(4)训练蒙语自动编码器和汉语解码器,同时训练汉语自动编码器和蒙语解码器,更新初始翻译模型,使得译文质量一步步提升。4.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述自动编码器为降噪自动编码器,以一种无监督的方法学习句子特征,将降噪自动编码器降噪的损失函数定义为:其中,Lauto()为自动编码器的降噪损失函数,θenc是在源语言和目标语言之间共享的参数,θdec是不依赖于输出语言的矢量参数,Z是隐藏状态序列,l是源语言,x是输入句子,Dl为单语语料库,C()是噪声函数,C(x)是输入句子x中添加噪声之后得到的新的句子,e()是自动编码器,d()是解码器,是重构之后的句子,△是衡量和x之间差异的度量,为词级交叉熵损失之和,E为期望,表示输入的分布取决于源语言l,并且采用损失的平均值,符号~表示来自概率分布的意思。5.根据权利要求4所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述添加噪声通过如下步骤实现:首先,以概率p_wd随机地从输入句子中删除一个字;其次,每个字都使用约束公式|σ(i)-i|≤k进行原始位置偏移,其中σ表示第i个字的移动位置,一个字最多能够向右或者向左移动k个字的位置。6.根据权利要求4所述基于单语语料库训练的蒙汉互译方法,其特征在于,在蒙汉两种语言之间训练相似词向量空间,之后设置规则对蒙汉两种语言进行重构,训...

【专利技术属性】
技术研发人员:苏依拉牛向华赵亚平
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1