一种基于单语语料库训练的蒙汉互译方法技术

技术编号：19479965 阅读：50 留言：0更新日期：2018-11-17 10:31

一种基于单语语料库训练的蒙汉互译方法，基于两个分别针对蒙语和汉语的自动编码器，具体采用降噪自动编码器，使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型，且在训练过程中，设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件，使得三种损失之和最小，从而完善蒙汉机器翻译系统，达到较好翻译的目标。本发明专利技术将最大限度利用现有蒙汉单语语料缓解因蒙汉平行语料缺乏而导致的蒙汉互译译文质量不高的问题，并且将辐射带动蒙古语语言学相关研究，对、机器翻译、多语言语音技术的研发等提供研究依据，将推动蒙古语信息化处理进程，为其它少数民族语言开展相关研究提供参考，具有一定的理论意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单语语料库训练的蒙汉互译方法
本专利技术属于机器翻译
，特别涉及一种基于单语语料库训练的蒙汉互译方法。
技术介绍
机器翻译研究如何利用计算机实现自然语言之间的自动转换，是人工智能和自然语言处理领域的重要研究方向之一。机器翻译作为突破不同国家和民族之间信息传递所面临的“语言屏障”问题的关键技术，对于促进民族团结、加强文化交流和推动对外贸易具有重要意义。近年来，机器翻译受到越来越多的关注。一方面，机器翻译技术拥有迫切的社会需求，并不完美的机器翻译技术在产业界的应用越来越广泛，实时语音翻译系统和在线翻译服务已进入日常生活；另一方面，机器翻译一直是学术界研究的一个热点，关于机器翻译技术的研究论文在数量上长期占据计算机语言学(或自然语言处理)领域各大学术会议的头名。在我国经济快速发展与社会不断进步的背景下，蒙古族与汉族之间的交流日益频繁。蒙古族是我国五十六个民族的重要组成之一，是草原游牧民族的典型代表和草原文化的重要传承者，蒙古语则是我国蒙古族同胞使用的主要语言。伴随着我国经济的发展，蒙古族和汉族同胞要进行交流就需要翻译，而人工翻译成本较高，这就促使蒙汉机器翻译有了用武之地，并且机器翻译也能极大的促进两种文化的融合和信息共享。对于两种文化的价值观相互渗透，凝聚民族的核心文化，促进良好民族关系的建立都具有重要的意义。从20世纪40年代末至今这六十多年的时间里，追随着机器翻译发展的脚步，研究人员也从未停止过机器翻译在蒙汉翻译中应用的研究。从基于统计的蒙汉机器翻译到基于实例的蒙汉机器翻译，再到基于深度学习的蒙汉机器翻译，虽然在蒙汉机器翻译研究上的道路是曲折的...

【技术保护点】
1.一种基于单语语料库训练的蒙汉互译方法，其特征在于，基于两个分别针对蒙语和汉语的自动编码器，使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型，且在训练过程中，设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件，使得三种损失之和最小。

【技术特征摘要】
1.一种基于单语语料库训练的蒙汉互译方法，其特征在于，基于两个分别针对蒙语和汉语的自动编码器，使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型，且在训练过程中，设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件，使得三种损失之和最小。2.根据权利要求1所述基于单语语料库训练的蒙汉互译方法，其特征在于，所述自动编码器为基于LSTM的自动编码器。3.根据权利要求1所述基于单语语料库训练的蒙汉互译方法，其特征在于，所述蒙汉互译翻译模型的训练步骤如下：(1)使用FastText学习得到蒙汉双语词典，使用词典翻译得到编码器-解码器结构的蒙汉互译初始翻译模型；(2)训练两个自动编码器，使其能够在给定一个带噪声的句子时重构变为不含噪声的句子；(3)训练鉴别器，学习得到一个对齐的潜在空间；(4)训练蒙语自动编码器和汉语解码器，同时训练汉语自动编码器和蒙语解码器，更新初始翻译模型，使得译文质量一步步提升。4.根据权利要求1所述基于单语语料库训练的蒙汉互译方法，其特征在于，所述自动编码器为降噪自动编码器，以一种无监督的方法学习句子特征，将降噪自动编码器降噪的损失函数定义为：其中，Lauto()为自动编码器的降噪损失函数，θenc是在源语言和目标语言之间共享的参数，θdec是不依赖于输出语言的矢量参数，Z是隐藏状态序列，l是源语言，x是输入句子，Dl为单语语料库，C()是噪声函数，C(x)是输入句子x中添加噪声之后得到的新的句子，e()是自动编码器，d()是解码器，是重构之后的句子，△是衡量和x之间差异的度量，为词级交叉熵损失之和，E为期望，表示输入的分布取决于源语言l，并且采用损失的平均值，符号～表示来自概率分布的意思。5.根据权利要求4所述基于单语语料库训练的蒙汉互译方法，其特征在于，所述添加噪声通过如下步骤实现：首先，以概率p_wd随机地从输入句子中删除一个字；其次，每个字都使用约束公式|σ(i)-i|≤k进行原始位置偏移，其中σ表示第i个字的移动位置，一个字最多能够向右或者向左移动k个字的位置。6.根据权利要求4所述基于单语语料库训练的蒙汉互译方法，其特征在于，在蒙汉两种语言之间训练相似词向量空间，之后设置规则对蒙汉两种语言进行重构，训...

【专利技术属性】
技术研发人员：苏依拉，牛向华，赵亚平，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人