一种基于词典和seq2seq预训练机制的中医古籍翻译方法技术

技术编号:21090138 阅读:30 留言:0更新日期:2019-05-11 10:10
本发明专利技术公开了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法,属于信息处理领域。该方法的特征包括:先预训练一个通用的seq2seq古文翻译模型,再基于词典,在中医专业知识的指导下,训练针对中医典籍的古文翻译模型。具体特征为:编码器和中医专业知识编码器分别用循环神经网络将古文编码得到内容向量,中医专业知识编码得到专业向量;将内容向量作为另一个循环神经网络的初始参数,输入特定开始字符,开始解码;将上一时刻解码器的输出、内容向量、专业向量拼接作为下一时刻解码器的输入,直至解码器输出结束符。本发明专利技术通过预训练通用的seq2seq古文翻译模型,并基于词典,在中医专业知识的指导下对中医典籍古文翻译进行优化,取得了很好的应用效果。

A method of translating Chinese ancient books based on dictionary and seq2seq pre-training mechanism

【技术实现步骤摘要】
一种基于词典和seq2seq预训练机制的中医古籍翻译方法
本专利技术涉及信息处理领域,特别涉及一种基于词典和seq2seq预训练机制的中医古籍翻译方法
技术介绍
机器翻译应用非常广泛,传统的机器翻译基于统计的方法,需要耗费大量的人力,且效果不好。目前主流的方法是基于神经网络的神经翻译,基于seq2seq的神经翻译方法和基于注意力机制的神经翻译方法都取得了很好的效果。seq2seq又称编码器-解码器方法,由编码器和解码器组成,分为编码和解码两个阶段。在编码阶段,将待翻译文本编码成定长向量,在解码阶段,根据编码得到的定长向量以及前一个词翻译的结果,得到下一个词的翻译结果。神经机器翻译已经开始商用,但在汉语古文到现代汉语的翻译中还没有特别好的效果,尤其是在中医典籍古文翻译领域,还没有成熟的方法和模型。主要原因有两点,一是目前中医古文翻译适用语料很少,难以训练复杂的神经网络模型。二是中医知识非常专业,使用通用的翻译模型翻译出的结果往往质量很低。本专利技术为了解决上述问题,提出了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法。
技术实现思路
为了解决现有的技术问题,本专利技术提供了一本文档来自技高网...

【技术保护点】
1.一种基于词典和seq2seq预训练机制的中医古籍翻译方法,其特征在于,所述方法包含以下结构和步骤:第一部分,训练通用的seq2seq古文翻译模型,(1.1)古文和现代汉语词语分别向量化,分别建立古文和现代汉语的词典,对输入文本的词语进行映射,将词语转换为相应的词向量;(1.2)对步骤(1.1)得到的古文各词语词向量进行列拼接,得到编码器输入;(1.3)编码阶段,使用循环神经网络对古文进行语义信息编码,将步骤(1.2)得到的向量作为编码器的输入,编码成一个定长的语义向量context;(1.4)解码阶段,用步骤(1.3)得到的context向量初始化用于解码的循环神经网络,使用特定的开始符,...

【技术特征摘要】
1.一种基于词典和seq2seq预训练机制的中医古籍翻译方法,其特征在于,所述方法包含以下结构和步骤:第一部分,训练通用的seq2seq古文翻译模型,(1.1)古文和现代汉语词语分别向量化,分别建立古文和现代汉语的词典,对输入文本的词语进行映射,将词语转换为相应的词向量;(1.2)对步骤(1.1)得到的古文各词语词向量进行列拼接,得到编码器输入;(1.3)编码阶段,使用循环神经网络对古文进行语义信息编码,将步骤(1.2)得到的向量作为编码器的输入,编码成一个定长的语义向量context;(1.4)解码阶段,用步骤(1.3)得到的context向量初始化用于解码的循环神经网络,使用特定的开始符,作为解码器第一时刻的输入,开始解码;(1.5)解码直至输出停止符,列拼接步骤(1.3)得到的语义向量context和上一时刻解码器的输出,得到下一时刻的解码器输入,输入至解码器,将解码器输出经过前向神经网络得到翻译结果,解码直至解码器输出停止符,解码结束。第二部分,基于中医字典,在中医专业知识指导下,训练针对中医典籍的古文翻译模型,(2.1)由第一部分得到的古文词表和现代汉语词表,将中医典籍的古文和现代汉语映射成词向量;(2.2)对步骤(2.1)得到的古文的文本矩阵进行列拼接,得到编码器输入,对于中医古文的专有名词,由《中医名词词典》,得到现代汉语专业解释,并根据已有的现代汉语词表,将现代汉语专业解释映射成词向量。(2.3)重载第一部分训练得到的模型,加入中医专业知识编码结构,得到中医专业知识编码向量,并按第一部分的步骤二-步骤五进行训练,和第一部分不同的是,步骤三得到的定长向...

【专利技术属性】
技术研发人员:高升徐亨如李思徐雅静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1