基于注意力机制神经网络的药物实体关系抽取方法及系统技术方案

技术编号：21184644 阅读：66 留言：0更新日期：2019-05-22 15:15

本发明专利技术涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该方法包括：(1)解析药化文献的文本内容，以句子为基本单位分句，并对句子中的每个词进行向量化表示；(2)将向量化表示的结果输入循环神经网络，通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体；(3)通过注意力机制神经网络获得句子中的词间重要性权重，并将其与步骤(2)的输出合并；(4)将步骤(3)得到的结果输入卷积神经网络，通过卷积神经网络对各药化实体词两两预测类别关系。本发明专利技术增加注意力机制关注实体类别信息权重的分类方法能够降低长句中错误的依存分析结果带来的影响，提高药化实体关系抽取准确率。

Drug entity relationship extraction method and system based on attention mechanism neural network

The invention relates to a method and system for extracting drug entity relationship based on attention mechanism neural network. The method includes: (1) parsing the text content of pharmacochemical literature, using sentences as basic unit clauses, and vectorizing each word in the sentence; (2) input the results of vectorization into the cyclic neural network, extract the relevant features of each word in the sentence according to the two-way word order of the cyclic neural network, and identify the pharmacochemical entities; (3) obtain them through the attention mechanism neural network. The importance weights between words in sentences are obtained and combined with the output of step (2); (4) The results obtained from step (3) are input into convolution neural network to predict the relationship between two categories of pharmaceutical entity words by convolution neural network. The method for classifying the weight of entity category information by increasing the attention mechanism can reduce the influence of incorrect dependency analysis results in long sentences and improve the accuracy of extraction of pharmacochemical entity relations.

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制神经网络的药物实体关系抽取方法及系统
本专利技术属于自然语言处理领域，涉及一种信息抽取技术，特别涉及一种药物化学文献中药物实体相互作用关系的抽取方法及系统。
技术介绍
药化实体关系抽取是药物化学知识库构建中的基本任务，所建系统自动从文献中抽取实体之间的关系，为疾病治疗、药物开发、生命科学研究提供了更为重要的参考价值，为药物化学知识数据库的构建和维护提供更深层的信息。实体关系抽取是药化知识获取的基石，以此构建知识库提高对药物化学现象的认知水平。由于药化文献中同一语句中的药化实体之间关系比较明确，因此本专利技术只考虑同一语句中的抽取结果。将关系抽取问题转化为有监督的多类分类问题，目的在于从文献中识别出发生相互作用的药化实体对。相比于其它类型的关系抽取，药化实体相互作用关系抽取的研究较少。现有方法主要有两类：基于规则的方法与基于有监督机器学习的方法。基于有监督机器学习的方法又可细分为基于特征的方法与基于核的方法。由于缺少已标注的药化实体相互作用关系语料库，早期的药化实体相互作用关系抽取方法都是基于规则的。自DDIExtraction2011与DDIExtraction2013评测开始，许多基于机器学习的方法被用于药化实体相互作用关系抽取。基于规则的方法，这类方法认为表达作用关系的语句结构是固定有限的。Segura-Bedmar的研究是一个典型的基于规则的系统。该系统对语句进行浅层分析检测语句中的语法结构，根据规则将分割复杂长句，然后根据药剂师制定的描述的规则，从短句中抽取相互作用的药化实体对。基于特征的方法，将关系抽取看作一个分类问题，用各种不同类...

【技术保护点】
1.一种基于注意力机制神经网络的药物实体关系抽取方法，其特征在于，包括以下步骤：(1)解析药化文献的文本内容，将文本内容以句子为基本单位分句，并对句子中的每个词进行向量化表示；(2)将步骤(1)的向量化表示的结果输入循环神经网络，通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体；(3)通过注意力机制神经网络获得句子中的词间重要性权重，并将其与步骤(2)的输出合并；(4)将步骤(3)得到的结果输入卷积神经网络，通过卷积神经网络对各药化实体词两两预测类别关系。

【技术特征摘要】
1.一种基于注意力机制神经网络的药物实体关系抽取方法，其特征在于，包括以下步骤：(1)解析药化文献的文本内容，将文本内容以句子为基本单位分句，并对句子中的每个词进行向量化表示；(2)将步骤(1)的向量化表示的结果输入循环神经网络，通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体；(3)通过注意力机制神经网络获得句子中的词间重要性权重，并将其与步骤(2)的输出合并；(4)将步骤(3)得到的结果输入卷积神经网络，通过卷积神经网络对各药化实体词两两预测类别关系。2.根据权利要求1所述的方法，其特征在于，步骤1)解析文本内容得到的向量包含：词向量、位置向量、词性特征向量，将这三者合并作为步骤(2)中循环神经网络的输入向量。3.根据权利要求2所述的方法，其特征在于，步骤1)通过word2vec算法构造词向量、位置向量、词性特征向量。4.根据权利要求1所述的方法，其特征在于，步骤(2)所述循环神经网络为双向长短期记忆网络。5.根据权利要求1所述的方法，其特征在于，步骤(3)所述注意力机制神经网络为单层注意力机制前馈神经网络。6.根据权利要求5所述的方法，其特征在于，步骤(3)所述词间重要性权重按如下公式计算：其中，输入的词特征向量为：N为句子词数量，表示自然数，F表示特征维度；待输出的重要性权重特征向量为：eij表示词xj对词xi通过ReLU函数对两个词向量执...

【专利技术属性】
技术研发人员：张亮仁，杨波，刘振明，宗晓琳，胡建星，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人