当前位置: 首页 > 专利查询>北京大学专利>正文

基于注意力机制神经网络的药物实体关系抽取方法及系统技术方案

技术编号:21184644 阅读:66 留言:0更新日期:2019-05-22 15:15
本发明专利技术涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该方法包括:(1)解析药化文献的文本内容,以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。本发明专利技术增加注意力机制关注实体类别信息权重的分类方法能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。

Drug entity relationship extraction method and system based on attention mechanism neural network

The invention relates to a method and system for extracting drug entity relationship based on attention mechanism neural network. The method includes: (1) parsing the text content of pharmacochemical literature, using sentences as basic unit clauses, and vectorizing each word in the sentence; (2) input the results of vectorization into the cyclic neural network, extract the relevant features of each word in the sentence according to the two-way word order of the cyclic neural network, and identify the pharmacochemical entities; (3) obtain them through the attention mechanism neural network. The importance weights between words in sentences are obtained and combined with the output of step (2); (4) The results obtained from step (3) are input into convolution neural network to predict the relationship between two categories of pharmaceutical entity words by convolution neural network. The method for classifying the weight of entity category information by increasing the attention mechanism can reduce the influence of incorrect dependency analysis results in long sentences and improve the accuracy of extraction of pharmacochemical entity relations.

【技术实现步骤摘要】
基于注意力机制神经网络的药物实体关系抽取方法及系统
本专利技术属于自然语言处理领域,涉及一种信息抽取技术,特别涉及一种药物化学文献中药物实体相互作用关系的抽取方法及系统。
技术介绍
药化实体关系抽取是药物化学知识库构建中的基本任务,所建系统自动从文献中抽取实体之间的关系,为疾病治疗、药物开发、生命科学研究提供了更为重要的参考价值,为药物化学知识数据库的构建和维护提供更深层的信息。实体关系抽取是药化知识获取的基石,以此构建知识库提高对药物化学现象的认知水平。由于药化文献中同一语句中的药化实体之间关系比较明确,因此本专利技术只考虑同一语句中的抽取结果。将关系抽取问题转化为有监督的多类分类问题,目的在于从文献中识别出发生相互作用的药化实体对。相比于其它类型的关系抽取,药化实体相互作用关系抽取的研究较少。现有方法主要有两类:基于规则的方法与基于有监督机器学习的方法。基于有监督机器学习的方法又可细分为基于特征的方法与基于核的方法。由于缺少已标注的药化实体相互作用关系语料库,早期的药化实体相互作用关系抽取方法都是基于规则的。自DDIExtraction2011与DDIExtraction2013评测开始,许多基于机器学习的方法被用于药化实体相互作用关系抽取。基于规则的方法,这类方法认为表达作用关系的语句结构是固定有限的。Segura-Bedmar的研究是一个典型的基于规则的系统。该系统对语句进行浅层分析检测语句中的语法结构,根据规则将分割复杂长句,然后根据药剂师制定的描述的规则,从短句中抽取相互作用的药化实体对。基于特征的方法,将关系抽取看作一个分类问题,用各种不同类型的特征显式地将候选关系实例表示成一个特征向量,然后使用有监督的机器学习模型将候选关系实例分类。药化实体相互作用关系抽取中最常用的分类模型是支持向量机。基于核的方法,核函数的选择对方法性能影响很大。Airola等人采用基于图结构核函数的全路径图核来表示蛋白质关系并建立依存关系图。Chowdhury等人将3个不同的核函数线性加权得到一个复合核函数,用于关系抽取,在DDIExtraction2013评测的药化实体相互作用关系抽取任务中取得最好的性能。实践表明基于规则的方法对长句复杂的关系抽取效果不好,而药化领域文献中包含大量同位语、并列结构等复杂结构的长句;制定规则耗时耗力且需要专业领域人员参与;此外,人工编制的规则很难覆盖所有的应用文本场景。现有研究关注基于有监督机器学习的方法,此类方法具有较好的性能与可移植性,但方法依赖于外部的自然语言处理工具,如果外部工具出错会造成错误传播,影响性能。
技术实现思路
本专利技术针对上述问题,提出一种有效快捷的基于注意力机制神经网络的药化实体关系抽取方法及系统,目的在于从药化文献中识别出发生相互作用的药化实体对。目前卷积神经网络模型在文本处理任务中具有较好的性能,本专利技术引入注意力机制进一步对所关注类别信息赋予重要性权重,降低了具有药化文献语言风格的长句、复杂句所带来错误句法依存信息的影响,提高关系抽取的准确率。本专利技术采用的技术方案如下:一种基于注意力机制神经网络的药物实体关系抽取方法,其步骤包括:(1)解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将步骤(1)的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。进一步地,步骤(1)解析文本内容得到的向量包含:词向量、位置向量、词性特征向量,将这三者合并作为步骤(2)中循环神经网络的输入向量。进一步地,步骤(1)中的词向量通过已有开源算法获得。进一步地,步骤(2)所述循环神经网络为双向长短期记忆网络。进一步地,步骤(3)所述注意力机制神经网络是一个单层的前馈神经网络,对各词间重要性进行权重计算。进一步地,步骤(4)通过卷积神经网络对句子中的实体词两两间抽取句子级特征向量,作为最终的特征向量,用于最终关系分类。一种基于注意力机制神经网络的药物实体关系抽取系统,其包括:文献解析模块,负责解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;文本内容分析模块,负责将所述文献解析模块得到的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;注意力机制模块,负责通过注意力机制神经网络获得句子中的词间重要性权重,并将其与所述注意力机制模块的输出合并;分类模块,负责利用所述注意力机制模块和所述文本内容分析模块的合并后的输出结果,通过卷积神经网络对各药化实体词两两预测类别关系。与现有技术相比,本专利技术的有益效果如下:根据背景分析介绍,传统的关系提取方法对长句复杂的关系抽取效果不好,而药化领域文献中包含大量同位语、并列结构等复杂结构的长句,因此无法满足药化这一特定领域的实体关系提取要求。本专利技术提出的注意力机制神经网络分类方法,是通过增加注意力机制关注实体类别信息权重的分类方法,能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。本专利技术的药物实体关系抽取方法,能够自动从文献中抽取实体之间的关系,为疾病治疗、药物开发、生命科学研究提供重要的参考价值,为药物化学知识数据库的构建和维护提供更深层的信息。附图说明图1为本专利技术方法的流程图。图2为提取各药化实体词之间两两关系示意图。图3为本专利技术应用注意力机制示意图。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步详细说明。本专利技术的技术方法为,从文本内容解析实现向量化输入,将合并的输入向量通过循环神经网络分析各词的关联特征及获得药化实体,然后通过注意力机制关注实体类别信息权重,合并权重信息和关联特征作为卷积神经网络分类器的输入,输出结果为对实体间相互的类别信息。图1是本专利技术方法的总体流程图。该方法的步骤如下:(1)对文本内容分句并获得各个词作为句子的基本元素。根据word2vec算法构造预处理词向量与文本内容中各个词匹配获得的词向量,提取词的位置向量及词性特征向量,并合并作为循环神经网络输入向量。其中,词的位置向量是指某一词在所在句子的位置的表示,例如句子首词表示为0,第二个词表示为1等;词性特征向量是指如果识别某一词为名词则将其向量化表示为00,如果为动词表示为01等等。图2通过例句“Phenytoinserumphenytoinlevelsmaybeincreasedbyaspirin.”展示提取各药化实体词之间两两关系流程。图2中的x为训练文本数据,y为训练数据给出类别标记。其中,x1、x2、x3、x4表示将句子以词为单位分割的结果,NP为名词短语缩写,VP为动词短语缩写,Drug表示为药物类别,false表示两个药物不存在相互关系,True表示存在关系。(2)根据标记好的文本数据进行训练,得到循环神经网络模型的内部参数。循环神经网络为双向长短期记忆网络(Bi-LSTM)。该步骤构造循环神经网络各个层参数,如权重矩阵参数及偏置矩阵参数;该层输出获得文本本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制神经网络的药物实体关系抽取方法,其特征在于,包括以下步骤:(1)解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将步骤(1)的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。

【技术特征摘要】
1.一种基于注意力机制神经网络的药物实体关系抽取方法,其特征在于,包括以下步骤:(1)解析药化文献的文本内容,将文本内容以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将步骤(1)的向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。2.根据权利要求1所述的方法,其特征在于,步骤1)解析文本内容得到的向量包含:词向量、位置向量、词性特征向量,将这三者合并作为步骤(2)中循环神经网络的输入向量。3.根据权利要求2所述的方法,其特征在于,步骤1)通过word2vec算法构造词向量、位置向量、词性特征向量。4.根据权利要求1所述的方法,其特征在于,步骤(2)所述循环神经网络为双向长短期记忆网络。5.根据权利要求1所述的方法,其特征在于,步骤(3)所述注意力机制神经网络为单层注意力机制前馈神经网络。6.根据权利要求5所述的方法,其特征在于,步骤(3)所述词间重要性权重按如下公式计算:其中,输入的词特征向量为:N为句子词数量,表示自然数,F表示特征维度;待输出的重要性权重特征向量为:eij表示词xj对词xi通过ReLU函数对两个词向量执...

【专利技术属性】
技术研发人员:张亮仁杨波刘振明宗晓琳胡建星
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1