一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法技术

技术编号:21090136 阅读:66 留言:0更新日期:2019-05-11 10:10
本发明专利技术公开了一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法,属于信息处理领域。该方法的特征包括:基于注意力机制,用中医药知识图谱指导训练attention‑seq2seq中医典籍古文翻译模型。具体特征为:根据中医药知识图谱,将中医专业知识编码成图谱向量,用循环神经网络将中医古文编码得到古文向量;将古文向量作为另一个循环神经网络的初始参数,输入特定开始字符,开始解码;将上一时刻解码器的输出经过Attention模块得到attention向量,attention向量和图谱向量一起得到指导向量。指导向量和上一时刻的输出拼接作为下一时刻解码器的输入,直至解码器输出结束符。本发明专利技术通过中医药知识图谱引入了大量专业中医知识指导attention‑seq2seq模型,取得了很好的应用效果。

A method of translating ancient Chinese medical texts based on knowledge map and attention mechanism of traditional Chinese medicine

【技术实现步骤摘要】
一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
本专利技术涉及信息处理领域,特别涉及一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法。
技术介绍
机器翻译应用非常广泛,传统的机器翻译基于统计的方法,需要耗费大量的人力,且效果不好。目前主流的方法是基于神经网络的神经机器翻译。神经机器翻译分为两大流派,分别是基于seq2seq和基于纯注意力机制的神经翻译方法。seq2seq又称编码器-解码器结构,attention机制又称注意力机制。attention-seq2seq是基于编码器-解码器结构,在解码过程中,让解码器关注待翻译文本的特定文字,使得翻译时可以从待翻译文本中选择对该时刻最重要的子集进行额外关注,以提升翻译效果。纯注意力机制抛弃了seq2seq结构,完全使用注意力机制进行翻译。在中医典籍古文翻译领域,传统的seq2seq、attention-seq2seq、以及基于纯注意力机制的神经翻译方法效果均不好。传统的seq2seq结构将待翻译文本编码成一个定长向量,难以关注待翻译文本中的特定文字,难以生成符合专业中医知识的翻译结果。attention-seq2seq以及基于纯注意力机制的神经翻译方法,由于目前中医古文翻译适用语料很少,在缺乏专业中医知识指导的情况下,难以训练复杂的神经网络模型。本专利技术为了解决上述问题,提出了一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法。知识图谱(KnowledgeGraph)是一种基于图的知识表示与组织方法,它的核心部件是语义网络,其中的节点代表领域概念(实体),边代表概念之间的语义关系。中医药知识图谱目前网上已有相关的服务,包括中医经方知识图谱、中医临床知识图谱、中医特色诊疗技术知识图谱等。中医知识图谱实体涵盖疾病、中药、方剂、中药化学成分等,关系包括层次关系和相关关系两大类,并在语义网络的基础上添加了更多的知识内容。例如,在图谱中搜索“党参”,我们可以得到它的药性、药材基原、炮制方法、药理学等属性以及它的上下位关系(如“党参”的上位概念为“补气药”)和50多种相关关系(如“党参”与其相关花卉、相关生物和相关药品等的相关关系)。本专利技术在attention-seq2seq的基础上,基于注意力机制,用中医知识图谱给attention-seq2seq提供了专业的中医知识指导,使得神经网络可训练,翻译结果质量高。
技术实现思路
为了解决现有的技术问题,本专利技术提供了一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法,方案如下。步骤一,基于中医药知识图谱,构造中医药实体词典和关系词典,并初始化实体向量和关系向量。实体类型包括疾病、中药、方剂、中药化学成分等,关系类型包括药味关系、方治关系、证治关系、机证关系等。步骤二,建立中医古文词表和现代汉语词表,并将中医古文和现代汉语的每个词语都映射为相应的词向量,并将中医古文的词向量拼接,将输入的中医古文映射为一个中医古文矩阵。步骤三,对中医古文,基于中医药实体词典和中医药知识图谱,得到其相邻的实体-关系对,并编码成图谱向量。步骤四,编码阶段,使用一个循环神经网络对中医古文矩阵进行编码,将中医古文映射成古文向量。步骤五,解码阶段,用步骤四编码器得到的古文向量,初始化另一个循环神经网络,拼接特定的开始符和零向量,作为解码器的输入,开始解码。步骤六,上一时刻解码器的输出通过attention结构得到attention向量,attention向量和步骤三的图谱向量得到指导向量。指导向量和上一时刻的输出共同作为下一个时刻解码器的输入,每个时刻的输出经过一个前向神经网络,并在现代汉语词表上得到翻译结果,直到解码器输出的翻译结果为结束符,解码结束。附图说明图1是本专利技术提供的基于中医药知识图谱和注意力机制的古文翻译模型结构图。图2为长短期记忆网络单元的内部结构图。具体实施方式接下来将对本专利技术的实施方案作更详细的描述。图1是基于中医药知识图谱和注意力机制的古文翻译模型结构图,其中包括:步骤S1:基于中医药知识图谱,构造中医药实体词典和中医药关系类型词典,初始化中医药实体向量和中医药关系向量;步骤S2:将中医古文现代汉语分别映射成词向量,拼接中医古文词向量得到编码器输入;步骤S3:对中医古文,基于中医药知识图谱,将其编码成图谱向量;步骤S4:编码阶段,用循环神经网络编码中医古文信息;步骤S5:输入特定的开始符,开始解码;步骤S6:通过attention结构得到attention向量,结合图谱向量得到指导向量。拼接指导向量和解码器上一时刻的输出得到下一时刻解码器的输入,解码直至输出停止符。下面对第一部分的每个步骤进行具体的说明:步骤S1:基于中医药知识图谱,构造中医药实体词典和中医药关系词典,初始化中医药实体向量和中医药关系向量。如图1所示,图中是中医药知识图谱的一部分,该图包含的实体有“心”、“当归”、“甘”、“温”、“养心汤”、“心血虚症”、“心血虚”、“补血养心”和“心血失养”,包含的关系有“药味关系”、“方药关系”、“方治关系”、“证治关系”、“药性关系”和“机证关系”。针对整个中医药知识图谱,构造中医药实体词典和中医药关系词典。假设中医药实体词典共有实体S个,那么中医药实体向量矩阵可以表示为一个S*k的矩阵,其中k表示词向量的维度,每一个中医药实体可以用一个k维的向量进行表示,即fi。同理,每一个中医药关系可以用gi表示。步骤S2:中医古文和现代汉语分别向量化。本专利技术首先分别针对中医古文和现代汉语,建立词语到词向量编号的映射字典,将文本中各个词语映射为相应的词语编号。建立词向量矩阵,每一行行号对应相应的词语编号,每一行代表一个词向量。假设中文词语共有N个,那么词向量矩阵可以表示为一个N*d的矩阵,其中d表示词向量的维度,每一个词语都可以用一个d维的向量进行表示。拼接中医古文词向量得到编码器输入。对于中医古文的输入文本,假设该句话中一共有n个词语,将该句中的所有词语的词向量拼接,可以得到编码器的输入矩阵,输入矩阵可以表示为x。其中,xi表示文本中第i个单词的词向量,n表示文本长度即文本中词语个数,表示向量的列连接。步骤S3:对中医古文,基于中医药知识图谱,将其编码成图谱向量。针对待翻译的中医古文,基于步骤S1构造的中医药实体词典,提取出待翻译中医古文的实体entity。针对实体entity,基于中医药知识图谱,找到与该entity通过一条邻边相连的所有实体-关系集合。即对与entity相邻实体entityi,entityi与entity之间的关系relationi可以构成entityi-relationi实体-关系对。所有的相邻实体-关系对可以构成大小为n′的实体-关系集合{entity1-relation1,…,entityn′-relationn′}。对特定的实体-关系对entity1-relation1,由S1初始化的中医药实体向量集合和中医药关系向量集合,得到实体向量g1和关系向量f1。将所有实体-关系对对应相乘求和,可以编码得到图谱向量C图谱。C图谱=g1*f1+g2*f2+…+gn′*fn′步骤S4:编码阶段,用一个循环神经网络编码古文信息,记为LSTMe。循环神经网络可以很好的提取文本的上下文信息,循本文档来自技高网
...

【技术保护点】
1.一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法,其特征在于,所述方法包含以下结构和步骤:(1)基于中医药知识图谱,构造中医药实体词典和关系词典,并初始化实体向量和关系向量;(2)中医古文和现代汉语词语分别向量化,将词语转换为相应的词向量,将中医古文映射为一个中医古文矩阵;(3)对中医古文,基于中医药实体词典和中医药知识图谱,将其编码成图谱向量;(4)编码阶段,使用循环神经网络对中医古文进行语义信息编码,将步骤(2)得到的中医古文矩阵作为编码器的输入,编码成古文向量;(5)解码阶段,用步骤(4)得到的古文向量初始化用于解码的循环神经网络,使用特定的开始符,作为解码器第一时刻的输入,开始解码;(6)解码直至输出停止符,前一时刻解码器的输出经过attention结构得到attention向量,结合步骤(3)的图谱向量得到指导向量。列拼接指导向量和解码器上一时刻的输出得到下一时刻解码器的输入,解码直至输出停止符。

【技术特征摘要】
1.一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法,其特征在于,所述方法包含以下结构和步骤:(1)基于中医药知识图谱,构造中医药实体词典和关系词典,并初始化实体向量和关系向量;(2)中医古文和现代汉语词语分别向量化,将词语转换为相应的词向量,将中医古文映射为一个中医古文矩阵;(3)对中医古文,基于中医药实体词典和中医药知识图谱,将其编码成图谱向量;(4)编码阶段,使用循环神经网络对中医古文进行语义信息编码,将步骤(2)得到的中医古文矩阵作为编码器的输入,编码成古文向量;(5)解码阶段,用步骤(4)得到的古文向量初始化用于解码的循环神经网络,使用特定的开始符,作为解码器第一时刻的输入,开始解码;(6)解码直至输出停止符,前一时刻解码器的输出经过attention结构得到attention向量,结合步骤(3)的图谱向量得到指导向量。列拼接指导向量和解码器上一时刻的输出得到下一时刻解码器的输入,解码直至输出停止符。2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:(1.1)基于中医药知识图谱,构造中医药实体词典;(1.2)基于中医药知识图谱,构造中医药关系词典;(1.3)初始化中医药实体向量矩阵;(1.4)初始化中医药关系向量矩阵。3.如权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:(2.1)建立中医古文和现代汉语词表;(2.2)根据词表,初始化中医古文词向量矩阵和现代汉语词向量矩阵,将中医古文和现代汉语词语分别向量化;(2.3)将最大长度之内的每个中医古文词语的词向量列拼接,得到编码器的输入。4.如权利...

【专利技术属性】
技术研发人员:徐亨如李思徐雅静高升
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1