【技术实现步骤摘要】
一种基于神经机器翻译的古汉语翻译方法
本专利技术属于计算机
,涉及一种机器翻译方法,具体涉及一种基于神经机器翻译的古汉语翻译方法。
技术介绍
神经机器翻译是一种通过神经网络直接实现自然语言之间端到端的自动翻译,通常采用编码器-解码器框架实现序列到序列的转换([文献1、2、9])。相对于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻译具有2个优点:(1)直接从生数据中学习特征;编码器-解码器框架学习到的句子向量表示可将句法不同、语义相同的句子聚在一起,同时能将通过调换主语和宾语产生的句法相同、语义不同的句子区分开。(2)能够捕获长距离依赖;神经机器翻译通过基于长短时记忆的递归神经网络能有效捕获长距离依赖,同时通过向量表示缓解数据稀疏问题,显著提升译文的流利度和可读性([文献3])。相对于非古汉语研究专家而言,不同时期的古代汉语的语句中,存在不少生数据(包括生字、生词以及生疏句法结构等),这些生数据的存在对古汉语翻译为现代汉语的过程造成了不少困扰,同时也引出了不少值得研究的挑战性问题([文献4、8])。同时,古代汉语的语法结构同样也存在长距离依赖的问题。例如,在翻译成现代汉语时需要补词,需要结合字词的上下文语义,需要结合被翻译字词在语句中存在的语法结构和位置等。而生数据特征学习和长距离依赖的问题是传统机器学习的方法无法予以较好解决的([文献5])。当前,神经机器翻译中的主要代表性研究工作主要包括:为了解决神经机器翻译带来的严重未登录词问题和缺乏一种保证翻译源词既流畅又完整的翻译机制问题,WeiHe等人([文献6])将统计机器翻译中的N元语言模型与 ...
【技术保护点】
1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;步骤3:对古汉语进行神经机器翻译。
【技术特征摘要】
1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;步骤3:对古汉语进行神经机器翻译。2.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤1中所述标准化处理,包括去噪、文本标准化、词频统计、语义分析和语法分析。3.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤2中所述将标注后的结果进行处理,包括分词和词频统计。4.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:判断语料是否为低资源语料;判断语料是否为低资源语料的标准有如下两个:(1)语料是否为封闭的有限语料,若是,则为低资源语料;(2)语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为低资源语料;若是,则执行下述步骤3.2;若否,则执行下述步骤3.3;步骤3.2:采用迁移学习对语料进行缓解;首先,对已知的古汉语语料利用神经机器模型进行翻译训练,训练得出的模型为高资源语料模型,称为父模型;然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练,训练模型为低资源语料模型,称之为子模型;其中语料库的样本数目低于阈值时的语料库为小样本的语料库,也称为低资源语料库;步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;若是,则执行下述步骤3.4;若否,则执行下述步骤3.5;步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;步骤3.5:对古汉语进行基于注意力机制的神经机器翻译。5.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.2中,将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可达到确定对翻译规则进行重构的目的。6.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,采用输出概率梯度模型缓解集外受限词汇量增加导致翻译复杂度增加的问题,该模型由正负两部分组成,如公式1;其中,t表示编码步骤,y<t=y1,y2,...,yt-1表示输出的目标序列;yt是yt-1的下一个输出的目标词汇,V是所有目标词汇的集合,k=1,2,...,t-1,t;p(yt|y<t)表示由前置词集合推断下一个目标词为某个对应翻译结果的概率,表示步骤t时对应目标词的能量函数的梯度,p(yk|y<t,x)表示由源词和前置词集合推断下一个目标词的概率;前置词指的是拟推断词汇之前的一系列词汇所构成的集合;定义能量函数ε用公式2进行计算;表示第j个词汇的翻译权重,表示特征函数,yj、yj-1分别是第j和第j-1个目标翻译结果,zj表示一...
【专利技术属性】
技术研发人员:王峰,高志明,谷琼,赵永标,屈俊峰,
申请(专利权)人:湖北文理学院,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。