一种基于神经机器翻译的古汉语翻译方法技术

技术编号:20389915 阅读:11 留言:0更新日期:2019-02-20 02:52
本发明专利技术公开了一种基于神经机器翻译的古汉语翻译方法,首先将经过标准化处理的古汉语语料进行语料标注;然后将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;最后对古汉语进行神经机器翻译。本发明专利技术不仅使先进的神经机器翻译技术的理论研究得以扩展,而且使得该技术可高效应用于古代汉语向现代汉语的实际应用中。本专利将神经机器翻译与古汉语的翻译工作相结合的研究思路,从而使这项研究成为古汉语翻译研究领域中的一大亮点。

【技术实现步骤摘要】
一种基于神经机器翻译的古汉语翻译方法
本专利技术属于计算机
,涉及一种机器翻译方法,具体涉及一种基于神经机器翻译的古汉语翻译方法。
技术介绍
神经机器翻译是一种通过神经网络直接实现自然语言之间端到端的自动翻译,通常采用编码器-解码器框架实现序列到序列的转换([文献1、2、9])。相对于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻译具有2个优点:(1)直接从生数据中学习特征;编码器-解码器框架学习到的句子向量表示可将句法不同、语义相同的句子聚在一起,同时能将通过调换主语和宾语产生的句法相同、语义不同的句子区分开。(2)能够捕获长距离依赖;神经机器翻译通过基于长短时记忆的递归神经网络能有效捕获长距离依赖,同时通过向量表示缓解数据稀疏问题,显著提升译文的流利度和可读性([文献3])。相对于非古汉语研究专家而言,不同时期的古代汉语的语句中,存在不少生数据(包括生字、生词以及生疏句法结构等),这些生数据的存在对古汉语翻译为现代汉语的过程造成了不少困扰,同时也引出了不少值得研究的挑战性问题([文献4、8])。同时,古代汉语的语法结构同样也存在长距离依赖的问题。例如,在翻译成现代汉语时需要补词,需要结合字词的上下文语义,需要结合被翻译字词在语句中存在的语法结构和位置等。而生数据特征学习和长距离依赖的问题是传统机器学习的方法无法予以较好解决的([文献5])。当前,神经机器翻译中的主要代表性研究工作主要包括:为了解决神经机器翻译带来的严重未登录词问题和缺乏一种保证翻译源词既流畅又完整的翻译机制问题,WeiHe等人([文献6])将统计机器翻译中的N元语言模型与神经机器翻译中的log-linear线性框架进行优势结合。为了同时改进统计机器翻译SMT的劣势(完整但不流畅)和神经机器翻译NMT的劣势(流畅但不完整)XingWang等人提出将SMT融入到NMT中([文献7]),即在每个解码步骤中,通过来自基于NMT的解码信息,SMT提供已生成词额外的推荐词汇,然后利用辅助分类器对SMT的推荐进行打分,并利用门阀函数将SMT推荐和NMT推荐相结合共同在NMT架构中进行端到端的训练。上述两类代表性方法具有其翻译优势,且在中英文翻译过程中取得了较好的翻译效果,但却未在古汉语到现代汉语的翻译应用中进行尝试。因此,其中的研究思路和方法值得本专利在进行古汉语翻译研究中进行部分借鉴。由于现代英语和不同时期的古汉语,不同时期的古汉语之间均存在语法和语义结构上的差异性,因此在做古汉语翻译研究时仍有特有问题需单独加以解决。[文献1]DzmitryBahdanau,KyunghyunCho,YoshuaBengio.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate.CoRRabs/1409.0473(2014).[文献2]刘洋.神经机器翻译前沿进展[J].计算机研究发展,2017,54(6):1144-1149.[文献3]HochreiterS,SchmidhuberJ.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735-1780.[文献4]孙良明.据历代专书注释语法分析谈高校古汉语语法教学(上)——兼说古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,2008(3):24-30.[文献5]孙良明.据历代专书注释语法分析谈高校古汉语语法教学(下)——兼说古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,,2008(4):38-46.[文献6]WeiHe,ZhongjunHe,HuaWuetal.ImprovedNeuralMachineTranslationwithSMTFeatures.AAAI2016.[文献7]XingWang,ZhengdongLu,ZhaopengTuetal.NeuralMachineTranslationAdvisedbyStatisticalMachineTranslation.AAAI2017:3330-3336.[文献8]孙良明.据古今专书训诂考据语法分析谈高校古汉语语法教学——再谈古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,2011(4):1-7.[文献9]熊德意,李军辉,王星等.基于约束的神经机器翻译[J].中国科学(信息科学版),2018,48(5):574-588.
技术实现思路
为了弥补现有研究的空白,本专利技术开拓性地提出了一种基于神经机器翻译的古汉语翻译方法。本专利技术所采用的技术方案是:一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;步骤3:对古汉语进行神经机器翻译。与当前研究内容相比,本专利的研究内容概括起来有如下3点创新之处:1、采用一种基于循环神经网络(RNN)的神经机器翻译方法,解决古汉语在机器翻译过程中存在的常见问题。如,过度翻译、翻译不完全、翻译不通顺等翻译质量不高的问题,从而达到提升古汉语向现代汉语翻译质量的目的;2、提出应对大规模集外受限词的神经机器翻译模型和方法,缓解古汉语翻译过程中存在的集外受限词汇量增加导致翻译复杂度增加的问题;3、利用迁移学习和强化学习相结合的思想,解决古汉语翻译过程中面临的低资源语言翻译问题。本专利技术不仅使先进的神经机器翻译技术的理论研究得以扩展,而且使得该技术可高效应用于古代汉语向现代汉语的实际应用中。本专利技术将神经机器翻译与古汉语的翻译工作相结合的研究思路,从而使这项研究成为古汉语翻译研究领域中的一大亮点。附图说明图1为本专利技术实施例的原理图;图2为本专利技术实施例中以《隆中对》首句为例未登录词与翻译表示意图;图3为本专利技术实施例中以《隆中对》首句为例基于注意力机制的神经机器翻译过程示意图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。神经机器翻译作为一项全新的机器翻译技术,它将先进的深度学习技术和方法与神经网络相结合,大大提升了语言类互译的覆盖度、忠实度和流畅度。本专利将这一技术首创性的应用于古代汉语向现代汉语的翻译工作中。不仅大大提升了人工翻译的效率,而且在翻译质量上也对传统的统计机器翻译技术有了较大程度的改进。本专利的研究内容将有可能被广泛应用于解决如下问题:1、古文化研究工作者不一定都精通各个时期的语言文字,本专利的研究工作可辅助这类人群解决语言翻译上的难题,使他们能专注于自身的核心工作;2、有些古文化业务爱好者比较热衷于广泛阅读大量的古代典籍,但他们从事也可能存在阅读古汉语的障碍,基于本专利的研究成果可辅助他们提升阅读古代典籍的效率和扩宽阅读古代典籍的阅读范围;3、传统的古汉语翻译工作一般有人工翻译完成,基于本专利的研究工作可为人们提供更准确、更合理的自动翻译结果,从而提升人们阅读古代典籍的兴趣。请见图1,本专利技术提供的一种基于神经机器翻译的古汉语翻译方法,包括以下步骤:步骤1:将经过标准化处理(包括去噪、文本文档来自技高网
...

【技术保护点】
1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;步骤3:对古汉语进行神经机器翻译。

【技术特征摘要】
1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;步骤3:对古汉语进行神经机器翻译。2.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤1中所述标准化处理,包括去噪、文本标准化、词频统计、语义分析和语法分析。3.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤2中所述将标注后的结果进行处理,包括分词和词频统计。4.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:判断语料是否为低资源语料;判断语料是否为低资源语料的标准有如下两个:(1)语料是否为封闭的有限语料,若是,则为低资源语料;(2)语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为低资源语料;若是,则执行下述步骤3.2;若否,则执行下述步骤3.3;步骤3.2:采用迁移学习对语料进行缓解;首先,对已知的古汉语语料利用神经机器模型进行翻译训练,训练得出的模型为高资源语料模型,称为父模型;然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练,训练模型为低资源语料模型,称之为子模型;其中语料库的样本数目低于阈值时的语料库为小样本的语料库,也称为低资源语料库;步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;若是,则执行下述步骤3.4;若否,则执行下述步骤3.5;步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;步骤3.5:对古汉语进行基于注意力机制的神经机器翻译。5.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.2中,将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可达到确定对翻译规则进行重构的目的。6.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,采用输出概率梯度模型缓解集外受限词汇量增加导致翻译复杂度增加的问题,该模型由正负两部分组成,如公式1;其中,t表示编码步骤,y<t=y1,y2,...,yt-1表示输出的目标序列;yt是yt-1的下一个输出的目标词汇,V是所有目标词汇的集合,k=1,2,...,t-1,t;p(yt|y<t)表示由前置词集合推断下一个目标词为某个对应翻译结果的概率,表示步骤t时对应目标词的能量函数的梯度,p(yk|y<t,x)表示由源词和前置词集合推断下一个目标词的概率;前置词指的是拟推断词汇之前的一系列词汇所构成的集合;定义能量函数ε用公式2进行计算;表示第j个词汇的翻译权重,表示特征函数,yj、yj-1分别是第j和第j-1个目标翻译结果,zj表示一...

【专利技术属性】
技术研发人员:王峰高志明谷琼赵永标屈俊峰
申请(专利权)人:湖北文理学院
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1