【技术实现步骤摘要】
一种基于知识增强的药物实体关系联合抽取方法及系统
[0001]本专利技术药物实体关系联合抽取
,更具体地,涉及一种基于知识增强的药物实体关系联合抽取方法及系统。
技术介绍
[0002]随着深度学习的快速发展,越来越多人将深度学习的方法运用到生物医学领域。此外信息技术的快速发展也让生物医学文本成爆炸式的增长,这些文本中包含更丰富的生物医学信息。其中药物
‑
药物相互作用(Drug DrugInteraction,简称DDI)是人们最关注的信息之一,从文献中直接获取DDI,能更快的了解到最新的资讯,同时也更直接,这就需要更快更好的药物实体关系抽取技术,如实体识别和关系抽取等。
[0003]现有的从DDI中抽取信息的方法主要通过以下两种方式实现:第一种是使用传统深度学习模型学习文本特征,这些文本特征通常包含词性、句子组成成分、句法分析等,通过学习这些特征,对每个药物实体对分类,预测DDI关系;第二种是在深度学习模型基础上增加一些外部知识库的信息,辅助模型得到更准确的结果。
[0004]然而,上 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识增强的药物实体关系联合抽取方法,其特征在于,包括如下步骤:(1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。(2)针对步骤(1)预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。(3)将步骤(1)得到的预处理后的药物实体相互作用关系数据集和步骤(2)得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。2.根据权利要求1所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,步骤(1)具体为,所首先执行指令xml.dom.minidom.parse,以得到文档对象模型(Document Object Model,简称DOM)树,根据该DOM树获取DDIExtaction 2013数据集的内容;然后,根据获取的DDIExtaction 2013数据集的内容得到多个药物实体的相互作用关系;然后根据得到的多个药物实体的相互作用关系进一步获取多个生物医学文本句子、每个生物医学文本句子中药物实体的位置、所有药物实体中任意一对药物实体间的相互作用关系类型、以及每个生物医学文本句子中包含的药物实体;最后,根据每对药物实体间的相互作用关系类型和以及每个生物医学文本句子中包含的药物实体获取每对药物实体的药物相互作用关系三元组,所有药物实体的药物相互作用关系三元组构成预处理后的药物实体相互作用关系数据集。3.根据权利要求1或2所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,步骤(2)具体为,首先,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图信息,然后,针对每个药物实体而言,使用BioBERT
‑
Base v1.0预训练词向量模型对该药物实体对应的实体描述信息进行处理,以得到该药物实体对应的实体描述特征,然后,针对每个药物实体而言,使用GCN模型对该药物实体对应的相互作用关系子图信息进行处理,以得到该药物实体对应的相互作用关系子图特征,最后,针对每个药物实体而言,根据其对应的实体描述特征和相互作用关系子图特征获取该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。4.根据权利要求1至3中任意一项所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图特征这一过程具体为,使用xml.dom.minidom.parse指令,以得到DrugBank知识库的DOM树,根据该DOM树获取DrugBank的内容,进而得到DrugBank知识库中的药物实体的相关信息,这些相关信息包含药物实体的实体描述、同义词、近义词、与其他药物实体的相互作用关系;然后根据步骤(1)中预处理后的药物实体相互作用关系数据集中的药物实体,同义匹配DrugBank知识库中的药物实体的相关信息;然后根据匹配到的DrugBank知识库中的药物实体的相关信息得到实体描述信息和相互作用关系子图信息。
使用DrugBank知识库获取每个药物实体对应的相互作用关系子图特征这一过程具体为,使用K
‑
means聚类的方法将DrugBank知识库中的药物实体的相互作用关系映射到DDIExtaction 2013数据集中对应的Advice、Int、Effect、以及Mechanism4种关系,得到药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息;最后使用GCN将药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息转换成相互作用关系子图特征。5.根据权利要求1所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,实体关系联合抽取模型包括一个掩码注意力模块、两个完全相同的BERT模型、以及一个特征融合模块。掩码注意力模块的输入为大小为n
·
n的掩码矩阵和步骤(2)得到的大小为n
·
h1的相互作用关系子图特征,输出为n
·
h1的知识掩蔽后的相互作用关系子图特征,其中掩码矩阵是根据药物实体在该生物医学文本句子中的位置关系而设计的,用于掩蔽该药物实体的相互作用关系子图对其他药物实体的影响,以得到知识掩蔽后的相互作用关系子图特征,n表示步骤(1)预处理后的药物实体相互作用关系数据集中的生物医学文本句子的长度,h1表示相互作用关系子图特征的向量维度。每个BERT模型使用12层Transformer编码器,其中第一个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及步骤(2)得到的所有生物医学文本句子中的所有药物实体对应的所有实体描述特征;第二个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及掩码注意力模块得到的知识掩蔽后的相互作用关系子图特征。第一个BERT模型的输出为N
·
h2维的融合了实体描述特征的特征向量,第二个BERT模型的输出N
·
h2维的融合了相互作用关系子图特征的特征向量,N表示步骤(1)中提取出的生物医学文本句子的总数吧,h2表示每个BERT模型输出的特征向量维度;特征融合模块将第一个BERT模型输出的N
·
h2维的融合了实体描述特征的特征向量和第二个BERT模型输出的N
·
h2维的融合了相互作用关系子图特征的特征向量进行融合,以得到预测模型结果。6.根据权利要求5所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,特征融合模块的具体的网络结构为:第一层是特征拼接层,其输入为两个BERT模型分别输出的大小为N
·
h2维的融合了实体描述特征的特征向量...
【专利技术属性】
技术研发人员:李芬,宋勃升,林轩,刘元盛,曾湘祥,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。