一种基于领域知识的药物致病关系抽取方法技术

技术编号:24501592 阅读:22 留言:0更新日期:2020-06-13 05:23
本发明专利技术属于生物医学文本挖掘技术领域,一种基于领域知识的药物致病关系抽取方法,包括以下步骤:(1)处理药物致病关系数据集,(2)构建领域知识集合,(3)根据领域知识构建实体‑关系图,(4)实例中词语的向量表示,(5)搭建KB‑GCN神经网络模型。本发明专利技术一种基于领域知识的药物致病关系抽取方法切实可行且结构清晰,具有参考价值。本发明专利技术适应于应用数据库中的领域知识从生物医学文本中自动的识别药物致病关系,将有助于构建药物致病数据库,辅助药物副作用预测等方面中的应用。

A method based on domain knowledge to extract the pathogenic relationship of drugs

【技术实现步骤摘要】
一种基于领域知识的药物致病关系抽取方法
本专利技术涉及一种基于领域知识的药物致病关系抽取方法,属于生物医学文本挖掘

技术介绍
药物致病是指人在服用某种药物期间由于药物副作用导致某种疾病或病症的过程。药物致病关系的研究在药物开发、测试及服用阶段受到广发的关注。同时,以比较毒理基因组学数据库为例,其中人为的收录了一些已知的药物导致疾病的关系信息。此外,仍然有许多药物致病关系的描述存在于大量的生物医学文献中。这些药物致病关系对于扩充病理毒理相关数据库、指导药物研发与测试具有重大的理论价值和使用价值。通过人工方法阅读生物医学文献并从中抽取出药物致病关系,需要生物医学背景知识的支持。这种人工抽取的方法耗时耗力且成本昂贵。随着文本挖掘技术的发展,利用机器学习的方法可以自动地从海量生物医学文本中抽取出药物致病关系。机器学习将药物致病关系抽取任务看作一个分类问题,该方法可以通过对人工标注的有限数量的训练样本进行建模,通过多轮迭代的训练方法得到模型,并应用在测试语料上。机器学习方法与人工方法相比具有成本低、效率高的优势。但是,现有机器学习方法往往忽略了已有数据库中的领域知识,关系抽取的准确率和召回率都有待提升。
技术实现思路
针对现有技术中存在的不足,本专利技术目的是提供一种基于领域知识的药物致病关系抽取方法。该方法可以通过对人工标注的有限数量的训练样本进行建模,通过多轮迭代的训练方法得到模型,并应用在测试语料上,克服了人工抽取的方法耗时、耗力且成本昂贵的问题。为了实现上述专利技术目的,解决已有技术中存在的问题,本专利技术采取的技术方案是:一种基于领域知识的药物致病关系抽取方法,包括以下步骤:步骤1、处理药物致病关系数据集,从已有的药物致病关系抽取评测任务中收集药物致病关系数据集,数据集中已标注出药物实体和疾病实体,以句子为单位,将药物实体与疾病实体组成实体对,按照训练集中标注的关系,处理成句子级别的实例,再将实例进行去重,词干化,去停用词,确定每个词语相对于实体的位置信息,最终得到句子级别的训练集;步骤2、构建领域知识集合,将训练实例中的药物实体和疾病实体进行统计,并在比较毒理基因组学数据库中找到相关实体信息,获得与训练集中的实体相关的药物实体和疾病实体,并组成药物-疾病关系对,由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系,因此,组成的药物-疾病关系对为药物致病关系对;除此之外,比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系,抽取出所有的关系,以三元组的形式构建成领域知识集合;步骤3、根据领域知识构建实体-关系图,对于每一个实例,首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体,识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成,对于多个词语组成的命名实体,在实例中用边将实体名称与组成该实体名称的词语连接起来,形成实体图;另外,将实例中的所有实体进行两两组队,若两个实体组成的实体对出现在领域知识集合中,则将实例中这两个实体之间构建一条边,由此,得到以实例中所有词语和实体名称短语为节点,实体内部和实体间的关系作为边的图;步骤4、实例中词语的向量表示,利用无监督训练模型对实例中的词语进行分布式表示,将实例中的每个词语表示为向量形式,作为词向量,具体作法为:对于实例中的每个词语定义一个d维实数向量,每一维实数向量为一个变量,每个词语与其前后k个词组成词语序列,其中d、k为自然数,使用Skip-Gram模型,将d维实数向量作为Skip-Gram模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,最后,将更新后得到的d维实数向量作为当前词语的词向量;除了词语的词向量之外,词语的位置向量也很重要,根据步骤1得到的每个词语相对于实体的位置信息,随机初始化成位置向量,拼接在词向量后面,得到词语的向量表示;步骤5、搭建KB-GCN神经网络模型,具体包括以下子步骤:(a)、确定KB-GCN神经网络模型的整体结构,该模型由基于双向长短时记忆神经网络的句子序列编码层,基于图神经网络的关系图编码层及在特征融合层后置softmax分类层所构成,最终得到药物致病关系的预测结果;(b)、搭建基于双向长短时记忆神经网络LSTM的编码层,该编码层包含一个正向和一个反向的长短时记忆神经网络结构,用于对词语进行编码,然后通过双向的长短时记忆神经网络的最终时刻的向量拼接得到编码后的文本特征表示,基于双向长短时记忆神经网络编码层对词语进行编码的过程通过公式(1)-(3)进行描述,式中,LSTMf()表示正向的长短时记忆神经网络,LSTMb()表示反向的长短时记忆神经网络,wtemb为第t个词的向量表示,其中包括预训练的词向量和随机初始化的位置向量,hft-1为第t-1个词的正向隐层表示,hbt+1为第t+1个词的反向隐层表示,为第t个词的正向的隐层表示,htb为第t个词的反向的隐层表示,Hs表示实例的句子序列向量;(c)、搭建基于图神经网络的关系图编码层,该编码层包含两个图卷积神经网络GCN层,用于对结合领域知识构建的实体-关系图进行编码,该编码层的过程通过公式(4)进行描述,式中,Aij表示图的邻接矩阵,W(l)表示权重矩阵,b(l)表示权重向量,ρ表示RELU激活函数,gi(l)为第l层图卷积神经网络中第i个节点的向量表示,由于图中的每个节点即为输入句子中的词语,得到每个节点的编码表示之后,对整个图沿句子长度进行最大池化操作,最终得到图的整体表示,通过公式(5)进行描述,Gi=max(gi)(5)式中,gi表示节点向量中的第i维度数值,Gi表示该维度数值中的最大值,将每一维度的表示进行拼接,即可得到图的整体表示Gs;(d)、对基于双向长短时记忆神经网络LSTM的编码层和基于图神经网络的关系图编码层得到的特征向量进行拼接,通过线性映射操作以及使用softmax函数进行归一化处理,得到该输入实例的分类结果,通过公式(6)进行描述,ys=Softmax(W[Hs;Gs])(6)式中,ys表示KB-GCN神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对输出向量ys进行argmax操作得到最终分类的预测结果。本专利技术有益效果是:一种基于领域知识的药物致病关系抽取方法,包括以下步骤:(1)处理药物致病关系数据集,(2)构建领域知识集合,(3)根据领域知识构建实体-关系图,(4)实例中词语的向量表示,(5)搭建KB-GCN神经网络模型。与已有技术相比,本专利技术一种基于领域知识的药物致病关系抽取方法切实可行且结构清晰,具有参考价值。本专利技术适应于应用数据库中的领域知识从生物医学文本中自动的识别药物致病关系,将有助于构建药物致病数据库,辅助药物副作用预测等方面中的应用。附图说明图1是本专利技术方法步骤流程图。图2是本专利技术中的KB-GCN神经网络模型图。具体实施方式本文档来自技高网...

【技术保护点】
1.一种基于领域知识的药物致病关系抽取方法,其特征在于包括以下步骤:/n步骤1、处理药物致病关系数据集,从已有的药物致病关系抽取评测任务中收集药物致病关系数据集,数据集中已标注出药物实体和疾病实体,以句子为单位,将药物实体与疾病实体组成实体对,按照训练集中标注的关系,处理成句子级别的实例,再将实例进行去重,词干化,去停用词,确定每个词语相对于实体的位置信息,最终得到句子级别的训练集;/n步骤2、构建领域知识集合,将训练实例中的药物实体和疾病实体进行统计,并在比较毒理基因组学数据库中找到相关实体信息,获得与训练集中的实体相关的药物实体和疾病实体,并组成药物-疾病关系对,由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系,因此,组成的药物-疾病关系对为药物致病关系对;除此之外,比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系,抽取出所有的关系,以三元组的形式构建成领域知识集合;/n步骤3、根据领域知识构建实体-关系图,对于每一个实例,首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体,识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成,对于多个词语组成的命名实体,在实例中用边将实体名称与组成该实体名称的词语连接起来,形成实体图;另外,将实例中的所有实体进行两两组队,若两个实体组成的实体对出现在领域知识集合中,则将实例中这两个实体之间构建一条边,由此,得到以实例中所有词语和实体名称短语为节点,实体内部和实体间的关系作为边的图;/n步骤4、实例中词语的向量表示,利用无监督训练模型对实例中的词语进行分布式表示,将实例中的每个词语表示为向量形式,作为词向量,具体作法为:对于实例中的每个词语定义一个d维实数向量,每一维实数向量为一个变量,每个词语与其前后k个词组成词语序列,其中d、k为自然数,使用Skip-Gram模型,将d维实数向量作为Skip-Gram模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,最后,将更新后得到的d维实数向量作为当前词语的词向量;除了词语的词向量之外,词语的位置向量也很重要,根据步骤1得到的每个词语相对于实体的位置信息,随机初始化成位置向量,拼接在词向量后面,得到词语的向量表示;/n步骤5、搭建KB-GCN神经网络模型,具体包括以下子步骤:/n(a)、确定KB-GCN神经网络模型的整体结构,该模型由基于双向长短时记忆神经网络的句子序列编码层,基于图神经网络的关系图编码层及在特征融合层后置softmax分类层所构成,最终得到药物致病关系的预测结果;/n(b)、搭建基于双向长短时记忆神经网络LSTM的编码层,该编码层包含一个正向和一个反向的长短时记忆神经网络结构,用于对词语进行编码,然后通过双向的长短时记忆神经网络的最终时刻的向量拼接得到编码后的文本特征表示,基于双向长短时记忆神经网络编码层对词语进行编码的过程通过公式(1)-(3)进行描述,/n...

【技术特征摘要】
1.一种基于领域知识的药物致病关系抽取方法,其特征在于包括以下步骤:
步骤1、处理药物致病关系数据集,从已有的药物致病关系抽取评测任务中收集药物致病关系数据集,数据集中已标注出药物实体和疾病实体,以句子为单位,将药物实体与疾病实体组成实体对,按照训练集中标注的关系,处理成句子级别的实例,再将实例进行去重,词干化,去停用词,确定每个词语相对于实体的位置信息,最终得到句子级别的训练集;
步骤2、构建领域知识集合,将训练实例中的药物实体和疾病实体进行统计,并在比较毒理基因组学数据库中找到相关实体信息,获得与训练集中的实体相关的药物实体和疾病实体,并组成药物-疾病关系对,由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系,因此,组成的药物-疾病关系对为药物致病关系对;除此之外,比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系,抽取出所有的关系,以三元组的形式构建成领域知识集合;
步骤3、根据领域知识构建实体-关系图,对于每一个实例,首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体,识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成,对于多个词语组成的命名实体,在实例中用边将实体名称与组成该实体名称的词语连接起来,形成实体图;另外,将实例中的所有实体进行两两组队,若两个实体组成的实体对出现在领域知识集合中,则将实例中这两个实体之间构建一条边,由此,得到以实例中所有词语和实体名称短语为节点,实体内部和实体间的关系作为边的图;
步骤4、实例中词语的向量表示,利用无监督训练模型对实例中的词语进行分布式表示,将实例中的每个词语表示为向量形式,作为词向量,具体作法为:对于实例中的每个词语定义一个d维实数向量,每一维实数向量为一个变量,每个词语与其前后k个词组成词语序列,其中d、k为自然数,使用Skip-Gram模型,将d维实数向量作为Skip-Gram模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,最后,将更新后得到的d维实数向量作为当前词语的词向量;除了词语的词向量之外,词语的位置向量也很重要,根据步骤1得到的每个词语相对于实体的位置信息,随机初始化成位置向量,拼接在词向量后面,得到词语的向量表示;
步骤5、搭建KB-GCN神经网络模型,具体包括以下子步骤:
(a)、确定K...

【专利技术属性】
技术研发人员:杨志豪李智恒
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1