当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于知识图谱的药物关系抽取方法技术

技术编号:33706257 阅读:19 留言:0更新日期:2022-06-06 08:29
本发明专利技术涉及一种基于知识图谱的药物关系抽取方法,通过PubmedBERT并结合注意力获取药物描述的语义特征,用药物关系抽取数据集和DrugBank数据库构建药物关系知识图谱,通过RotatE模型得到药物的知识嵌入特征;同时获取药物关键路径特征;最后组合药物描述的语义特征、知识嵌入特征和关键路径特征送入多层感知机中分类,同时使用基于知识嵌入的多分类FocalLoss损失函数训练神经网络分类模型,并根据分类模型结果计算分类准确率。通过使用注意力机制获取更符合药物关系抽取任务的语义特征,同时使用知识图谱嵌入,使网络模型具有更好的可解释性,最后通过改进的多分类Focal loss损失函数,有效缓解了数据集分布不均衡问题,使最终分类结果有所提高。使最终分类结果有所提高。使最终分类结果有所提高。

【技术实现步骤摘要】
一种基于知识图谱的药物关系抽取方法


[0001]本专利技术涉及自然语言处理、关系抽取和计算生物医学等
,具体而言,具体涉及一种基于知识图谱和KE

MFL Loss的药物关系抽取方法。

技术介绍

[0002]药物在我们的日常生活中具有重要的作用,能够帮助我们维护身体的健康。当我们同时服用两种以上的药物时,药物之间会可能会发生拮抗作用,而药物之间拮抗作用会危害我们的身体健康,严重情况下,会危及我们的生命安全。因此,需要及时的获悉两种药物之间是否会产生拮抗作用,是否会对我们的生命健康产生危害。
[0003]目前,已经存在一些药物关系查询数据库,如DrugBank和PharmGKB等。但是这些数据库的内容均是由人工来维护的,数据更新不及时而且要耗费大量的人力物力。所以,自动的从海量的生物医学文献中抽取药物之间关系(Drug

drug Interaction Extraction,DDIE)的需求应运而生,而当前主要使用的便是神经网络的方法。
[0004]神经网络模型方法主要步骤是:使用海量的数据训练出一个神经网络模型,该模型能够学习到数据中的一些特征,然后使用该训练好的模型来预测新的药物之间关系。但神经网络由于其黑盒特性,对其预测结果往往没有较好的可解释性。
[0005]目前经常使用的药物关系抽取数据集是SemEval 2013年一个共享任务所公开的数据集,即DDIE 2013。但该数据集的正负例分布极不均衡,其中负例占比更是超过了80%。同时,该数据集只提供了药物相互作用关系的描述文本,所包含的知识内容比较有限,不能够提供更多的外部知识,导致网络模型分类结果不准确。
[0006]综上所述,可以看出现有的神经网络分类方法中,主要存在数据集分布不均衡,以及包含外部知识较少的问题,进而导致了现有模型分类不准确的结果。

技术实现思路

[0007]针对于目前药物关系抽取领域中,数据集包含的知识有限以及数据集分布不均衡等缺陷或者不足,本专利技术的目的在于,提供一种基于知识图谱的药物关系抽取方法,该方法使用基于知识图谱的神经网络模型结构来补充外部知识,使用基于知识嵌入的多分类Focal Loss损失函数来缓解数据分布不均衡及样例错分的问题,然后进行药物关系的分类。
[0008]为了实现上述任务,本专利技术采用如下的技术解决方案予以实现:
[0009]2、一种基于知识图谱的药物关系抽取方法,其特征在于,包括以下步骤:
[0010]步骤S1:数据预处理
[0011]将原始的药物数据集进行处理,并按以下三种规则进行:
[0012]规则1:一个实例中是否包含相同药物名;
[0013]规则2:两种药物之间是否有一个药物为另一个药物的子类;
[0014]规则3:两种药物之间是否存在关键路径;
[0015]根据上述三种规则去除掉负例数据实例,得到预处理后的数据集;
[0016]步骤S2:语义特征表示
[0017]所得到预处理后的数据集,将这些数据实例,依次送入PubmedBERT中获取语义特征,同时使用注意力机制来获取每个实例的语义特征,这些语义特征是考虑了不同语法特征的综合语义特征;
[0018]步骤S3:药物关系知识图谱构建
[0019]将原本药物关系抽取数据集融入到DrugBank数据库之中,形成需要的药物关系知识图谱;
[0020]步骤S4:知识嵌入特征表示
[0021]在构建好需要的药物关系知识图谱之后,将得到的药物关系知识图谱,选择RotatE知识嵌入模型来得到对应的知识嵌入特征;
[0022]步骤S5:关键路径特征表示
[0023]使用Stanza工具获取两个药物实体间的关键路径信息,在此基础之上,获取原始药物描述文本的关键路径特征;
[0024]步骤S6:神经网络分类
[0025]将得到的语义特征、关键路径特征以及知识嵌入特征拼接之后,能够得到包含不同特征的向量集合,接着将这些向量平均化之后送入到多层感知机中进行分类,将多层感知机分类的结果送入到Softmax中,进行归一化;
[0026]最后将得到的向量进行五分类,得到最终的分类结果;同时选择使用基于知识嵌入的多分类Focal Loss损失函数训练神经网络,该损失函数能够有效的缓解数据分布不均衡以及神经网络错分的问题,使神经网络模型的最终分类结果取得较高值;
[0027]步骤S7:药物关系查询原型系统设计
[0028]通过前述步骤抽取出需要的药物关系,接着将抽取出的药物关系存储至数据库之中,然后,设计药物关系抽取原型系统,以方便用户查询相关的药物信息;该药物关系查询原型系统包括用户注册、用户登录、药物关系查询以及药物信息管理模块。
[0029]上述基于知识图谱的药物关系抽取方法构建的药物关系分类模型,包括依次连接的数据预处理模块、语义特征表示模块、药物关系知识图谱构建模块、知识嵌入特征表示模块、关键路径特征表示模块、神经网络分类模块和药物关系查询原型系统设计模块。
[0030]本专利技术的基于知识图谱的药物关系抽取方法,与现有技术相比,带来的技术创新在于:
[0031]通过使用PubmedBERT和注意力机制来获取药物关系抽取数据集实例的语义特征,通过这种方式获取的特征能够考虑不同的语法结构信息,得到的语义特征更贴近于药物关系抽取任务,进一步使最终的分类结果也更准确。
[0032]首次将知识图谱应用于药物关系抽取领域,通过融合药物关系抽取数据集和DrugBank数据库中包含的药物关系数据,形成我们需要的药物关系知识图谱,融合了更丰富的外部知识,进而使得最终的模型包含了更多的先验知识。
[0033]提出了基于知识嵌入的多分类Focal Loss损失函数,该损失函数能够有效的缓解数据集分布不均衡的问题以及样例错分的问题。同时,通过该损失函数,也能够增加模型的可解释性。相较于以前学者的工作,本申请的基于知识图谱的药物关系抽取方法提高了模
型的可解释性,缓解了神经网络黑盒的特点,以及不可解释的问题。
附图说明
[0034]图1为本专利技术的基于知识图谱的药物关系抽取方法整体流程图;
[0035]图2为药物关系查询原型系统结构示意图;
[0036]以下结合附图和实施例对本专利技术作进一步的详细说明。
具体实施方式
[0037]以下实施例中,所列的参考文献被应用:
[0038]【1】Liu,S.et al.Drug

drug interaction extraction via convolutional neural networks.Comput.Math.Methods Med,2016。
[0039]【2】Peng,Y.et al.Transfer learning in biomedical natural language processing:an 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的药物关系抽取方法,其特征在于,包括以下步骤:步骤S1:数据预处理将原始的药物数据集进行处理,并按以下三种规则进行:规则1:一个实例中是否包含相同药物名;规则2:两种药物之间是否有一个药物为另一个药物的子类;规则3:两种药物之间是否存在关键路径;根据上述三种规则去除掉负例数据实例,得到预处理后的数据集;步骤S2:语义特征表示所得到预处理后的数据集,将这些数据实例,依次送入PubmedBERT中获取语义特征,同时使用注意力机制来获取每个实例的语义特征,这些语义特征是考虑了不同语法特征的综合语义特征;步骤S3:药物关系知识图谱构建将原本药物关系抽取数据集融入到DrugBank数据库之中,形成需要的药物关系知识图谱;步骤S4:知识嵌入特征表示将得到的药物关系知识图谱,使用RotatE知识嵌入模型,得到知识嵌入特征;步骤S5:关键路径特征表示使用Stanza工具获取两个药物实体间的关键路径信息,在此基础之上,获取原始药物描述文本的关键路径特征;步骤S6:神经网络分类将得到的语义特征、关键路径特征以及知识嵌入特征拼接之后,能够得到包含不同特征的向量集合,接着将这些向量平均化之后送入到多层感知机中进行分类,将多层感知机分类的结果送入到Softmax中,进行归一化;最后将得到的向量进行五分类,得到最终的分类结果;同时选择使用基于知识嵌入的多分类Focal Loss损失函数训练神经网络,该损失函数能够有效的缓解数据分布不均衡以及神经网络错分的问题,使神经网络模型的最终分类结果取得较高值;步骤S7:药物关系查询原型系统设计通过前述步骤抽取出需要的药物关系,接着将抽取出的药物关系存储至数据库之中,然后,设计药物关系抽取原型系统,以方便用户查询相关的药物信息;该药物关系查询原型系统包括...

【专利技术属性】
技术研发人员:孙霞金鑫陈嘉诚卞婷王明磊
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1