当前位置: 首页 > 专利查询>四川大学专利>正文

基于外部知识的药物相互作用关系抽取方法及系统技术方案

技术编号:26032770 阅读:27 留言:0更新日期:2020-10-23 21:10
本发明专利技术提供一种基于外部知识的药物相互作用关系抽取方法及系统,方法包括以下步骤:对药物数据库内容进行分析处理,抽取并生成相互作用的药物对,同时保存所有药物描述信息,形成带有药物描述信息的药物相互作用数据集;构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型;将所述最优模型与BiLSTM‑Att‑CapsNet模型相结合得到EK‑BiLSTM‑Att‑CapsNet模型,同时识别药物相互作用数据集的药物实体,在药物数据库中找寻对应药物描述信息并保存,最后对结合的模型进行训练得到最终关系抽取模型。该方法能缓解不同关系类别抽取结果差异较大的问题,提高抽取效果。

【技术实现步骤摘要】
基于外部知识的药物相互作用关系抽取方法及系统
本专利技术属于自然语言处理
,具体涉及一种基于外部知识的药物相互作用关系抽取方法。
技术介绍
药物药物相互作用(Drug-DrugInteractions,DDI)是指当患者同时服用多种药物时,不同药物之间所产生的协同或拮抗等作用,由此可能会产生副作用,导致治疗费用增加且对患者的生命安全造成威胁,因此了解药物之间的相互作用知识对于患者的诊治和医学的发展有着非常重要的意义与价值。目前在药物相互作用关系抽取领域应用方法主要有:基于规则的方法,基于传统机器学习的方法以及基于深度学习的方法。基于规则的方法,其规则的制定一般需要医学领域中专业人员的辅助,由于语言表达形式的多样性,制定的规则往往难以覆盖所有的药物相互作用关系,因此该方法的召回率较低;基于传统机器学习的方法,通常需要利用大量人工定义特征,如词性,句法,语法等特征,且需要利用外部自然语言处理工具生成这些特征,如词性标注器,句法分析器等工具,因此其抽取性能受外部自然语言处理工具的影响较大;基于深度学习的方法具有自动学习特征的能力,可以减少人工设计特征所耗费的代价且抽取效果一般比传统的方法好,但同前两种方法类似,模型在不同关系类别上的抽取结果上会出现差异较大的问题。
技术实现思路
有鉴于此,本专利技术的目的之一在于提供一种基于外部知识的药物相互作用关系抽取方法,该方法能缓解不同关系类别抽取结果差异较大的问题,提高了抽取效果。为实现上述目的,本专利技术的技术方案为:一种基于外部知识的药物相互作用关系抽取方法,包括以下步骤:对药物数据库内容进行分析处理,抽取并生成相互作用的药物对,同时保存所有药物描述信息,形成带有药物描述信息的药物相互作用数据集;构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型;将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型,同时识别药物相互作用数据集的药物实体,在药物数据库中找寻对应药物描述信息并保存,最后对结合的模型进行训练得到最终关系抽取模型。进一步地,所述构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型的步骤,具体包括:同一时间接收第一药物的描述信息、第二药物的描述信息;将第一药物的描述信息、第二药物的描述信息转换为向量表示;分别获取第一药物与第二药物描述语句的前向信息和后向信息,然后将二者相结合,作为句子表示;对句子表示进行线性变换,然后进行性归一化处理,选取类别概率最大的作为预测类别标签;利用损失函数代入药物相互作用数据集训练,得到最优模型。进一步地,得到句子表示的方法为:BiLSTM获取语句的前向信息和后向信息,计算得到隐藏层的输出:表示正向输入的语句,表示逆序输入的语句,表示正向输入的语句的输出,表示逆序输入的语句的输出,H为BiLSTM隐藏层的输出;计算得到经过BiLSTM后,句子表示为:表示前向输入的最后一个时间步的信息,表示后向输入的最后一个时间步的信息。进一步地,所述预测类别标签通过以下方式得到:先计算得到句子表示的线性变换:h*=[h1;h2];output=W(fc)·h*+b(fc);其中,W(fc)和b(fc)分别为全连接层的权重参数和偏置参数,h1∈RN表示第一药物描述信息经过BiLSTM层的句子表示,h2∈RN表示第二药物描述信息经过BiLSTM层的句子表示,N表示BiLSTM隐藏层单元数目,output为线性变换输出,h*∈R2N为第一药物、第二药物句子表示的拼接;根据线性变换进行归一化处理,选取最大的类别概率为预测类别标签:其中,代表预测类别标签,output代表所述句子线性变换的输出,softmax(output)为归一化处理。进一步地,所述损失函数为:其中,y∈Rm代表真实类别标签,m代表类别标签数目,y和以one-hot向量表示,λ是L2正则化的超参数,θ为在模型中进行训练得到。进一步地,所述EK-BiLSTM-Att-CapsNet模型使用的损失函数为:L=Tkmax(0,m+-||vk||)2+λ(1-Tk)max(0,||vk||-m-)2其中,Tk为分类的指示函数,k为指示系数,m+为上边界,||vk||为第k个胶囊的长度,m-为下边界。有鉴于此,本专利技术的目的之二在于提供一种基于外部知识的药物相互作用关系抽取系统,该系统能缓解在不同关系类别抽取中结果差异较大的问题。为实现上述目的,本专利技术的技术方案为:一种基于外部知识的药物相互作用关系抽取系统,包括:药物信息数据集构建模块,用于对药物数据库内容进行分析和处理,抽取并生成相互作用的药物对,同时保留所有药物的描述信息,形成带有药物描述信息的药物相互作用数据集;药物描述信息模型,与所述药物信息数据集构建模块相连,用于构建药物描述信息训练模型,并在所述药物相互作用数据集上训练,然后保存最优模型;EK-BiLSTM-Att-CapsNet模型,与所述药物描述信息模型相连,用于识别所述药物相互作用数据集的药物实体,然后在药物数据库中找寻对应药物描述信息并保存,同时将所述药物描述信息模型保存的最优模型与BiLSTM-Att-CapsNet模型相结合,并对结合模型进行训练得到最终关系抽取模型。进一步地,所述药物描述信息模型包括:输入层、嵌入层、BiLSTM层、全连接层、输出层;其中,输入层同一时间接收第一药物的描述信息、第二药物的描述信息,第一药物描述语句用p表示,p={p1,...pi...,pn};第二药物描述语句用q表示,q={q1,...qi...,qn},pi和qi分别表示两个药物描述语句的第i个单词;所述嵌入层将所述输入层的药物描述语句转换为向量表示,第一药物描述语句向量用表示,第二药物描述语句向量用表示,表示单词嵌入的维度;所述BiLSTM层与所述嵌入层相连,用于使用BiLSTM网络,分别获取第一药物与第二药物的描述语句的前向信息和后向信息,然后将二者相结合,作为句子表示;全连接层与所述BiLSTM层相连,用于对BiLSTM层的句子表示进行线性变换;输出层与所述全连接层相连,用于对所述全连接层的输出进行归一化处理,并选取类别概率最大的作为预测的关系类别。进一步地,得到句子表示的方法为:表示正向输入的语句,表示逆序输入的语句,表示正向输入的语句的输出,表示逆序输入的语句的输出,H为BiLSTM层中BiLSTM隐藏层的输出,表示前向输入的最后一个时间步的信息,表示后向输入的最后一个时间步的信息。进一步地,所述预测类别标签通过以下方式得到:h*本文档来自技高网...

【技术保护点】
1.一种基于外部知识的药物相互作用关系抽取方法,其特征在于,包括以下步骤:/n对药物数据库内容进行分析处理,抽取并生成相互作用的药物对,同时保存所有药物描述信息,形成带有药物描述信息的药物相互作用数据集;/n构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型;/n将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型,同时识别药物相互作用数据集的药物实体,在药物数据库中找寻对应药物描述信息并保存,最后对结合的模型进行训练得到最终关系抽取模型。/n

【技术特征摘要】
1.一种基于外部知识的药物相互作用关系抽取方法,其特征在于,包括以下步骤:
对药物数据库内容进行分析处理,抽取并生成相互作用的药物对,同时保存所有药物描述信息,形成带有药物描述信息的药物相互作用数据集;
构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型;
将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型,同时识别药物相互作用数据集的药物实体,在药物数据库中找寻对应药物描述信息并保存,最后对结合的模型进行训练得到最终关系抽取模型。


2.根据权利要求1所述的方法,其特征在于,所述构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型的步骤,具体包括:
同一时间接收第一药物的描述信息、第二药物的描述信息;
将第一药物的描述信息、第二药物的描述信息转换为向量表示;
分别获取第一药物与第二药物描述语句的前向信息和后向信息,然后将二者相结合,作为句子表示;
对句子表示进行线性变换,然后进行性归一化处理,选取类别概率最大的作为预测类别标签;
利用损失函数代入药物相互作用数据集训练,得到最优模型。


3.根据权利要求2所述的方法,其特征在于,得到句子表示的方法为:
BiLSTM获取语句的前向信息和后向信息,计算得到隐藏层的输出:










表示正向输入的语句,表示逆序输入的语句,表示正向输入的语句的输出,表示逆序输入的语句的输出,H为BiLSTM隐藏层的输出;
计算得到经过BiLSTM后,句子表示为:




表示前向输入的最后一个时间步的信息,表示后向输入的最后一个时间步的信息。


4.根据权利要求3所述的方法,其特征在于,所述预测类别标签通过以下方式得到:
先计算得到句子表示的线性变换:
h*=[h1;h2];
output=W(fc)·h*+b(fc);
其中,W(fc)和b(fc)分别为全连接层的权重参数和偏置参数,h1∈RN表示第一药物描述信息经过BiLSTM层的句子表示,h2∈RN表示第二药物描述信息经过BiLSTM层的句子表示,N表示BiLSTM隐藏层单元数目,output为线性变换输出,h*∈R2N为第一药物、第二药物句子表示的拼接;
根据线性变换进行归一化处理,选取最大的类别概率为预测类别标签:



其中,代表预测类别标签,output代表所述句子线性变换的输出,为归一化处理。


5.根据权利要求4所述的方法,其特征在于,所述损失函数为:



其中,y∈Rm代表真实类别标签,m代表类别标签数目,y和以one-hot向量表示,λ是L2正则化的超参数,θ为在模型中进行训练得到。


6.根据权利要求5所述的方法,其特征在于,所述EK-BiLSTM-Att-CapsNet模型使用的损失函数为:
L=Tkmax(0,m+-||vk||)2+λ(...

【专利技术属性】
技术研发人员:琚生根罗莘涛刘宁宁
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1