基于外部知识的药物相互作用关系抽取方法及系统技术方案

技术编号：26032770 阅读：27 留言：0更新日期：2020-10-23 21:10

本发明专利技术提供一种基于外部知识的药物相互作用关系抽取方法及系统，方法包括以下步骤：对药物数据库内容进行分析处理，抽取并生成相互作用的药物对，同时保存所有药物描述信息，形成带有药物描述信息的药物相互作用数据集；构建药物描述系信息训练模型，并通过所述药物相互作用数据集进行训练，得到并保存最优模型；将所述最优模型与BiLSTM‑Att‑CapsNet模型相结合得到EK‑BiLSTM‑Att‑CapsNet模型，同时识别药物相互作用数据集的药物实体，在药物数据库中找寻对应药物描述信息并保存，最后对结合的模型进行训练得到最终关系抽取模型。该方法能缓解不同关系类别抽取结果差异较大的问题，提高抽取效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于外部知识的药物相互作用关系抽取方法及系统
本专利技术属于自然语言处理
，具体涉及一种基于外部知识的药物相互作用关系抽取方法。
技术介绍
药物药物相互作用(Drug-DrugInteractions，DDI)是指当患者同时服用多种药物时，不同药物之间所产生的协同或拮抗等作用，由此可能会产生副作用，导致治疗费用增加且对患者的生命安全造成威胁，因此了解药物之间的相互作用知识对于患者的诊治和医学的发展有着非常重要的意义与价值。目前在药物相互作用关系抽取领域应用方法主要有：基于规则的方法，基于传统机器学习的方法以及基于深度学习的方法。基于规则的方法，其规则的制定一般需要医学领域中专业人员的辅助，由于语言表达形式的多样性，制定的规则往往难以覆盖所有的药物相互作用关系，因此该方法的召回率较低；基于传统机器学习的方法，通常需要利用大量人工定义特征，如词性，句法，语法等特征，且需要利用外部自然语言处理工具生成这些特征，如词性标注器，句法分析器等工具，因此其抽取性能受外部自然语言处理工具的影响较大；基于深度学习的方法具有自动学习特征的能力，可以减少人工设计特征所耗费的代价且抽取效果一般比传统的方法好，但同前两种方法类似，模型在不同关系类别上的抽取结果上会出现差异较大的问题。
技术实现思路
有鉴于此，本专利技术的目的之一在于提供一种基于外部知识的药物相互作用关系抽取方法，该方法能缓解不同关系类别抽取结果差异较大的问题，提高了抽取效果。为实现上述目的，本专利技术的技术方案为：一种基于外部知识的药...

【技术保护点】
1.一种基于外部知识的药物相互作用关系抽取方法，其特征在于，包括以下步骤：/n对药物数据库内容进行分析处理，抽取并生成相互作用的药物对，同时保存所有药物描述信息，形成带有药物描述信息的药物相互作用数据集；/n构建药物描述系信息训练模型，并通过所述药物相互作用数据集进行训练，得到并保存最优模型；/n将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型，同时识别药物相互作用数据集的药物实体，在药物数据库中找寻对应药物描述信息并保存，最后对结合的模型进行训练得到最终关系抽取模型。/n

【技术特征摘要】
1.一种基于外部知识的药物相互作用关系抽取方法，其特征在于，包括以下步骤：
对药物数据库内容进行分析处理，抽取并生成相互作用的药物对，同时保存所有药物描述信息，形成带有药物描述信息的药物相互作用数据集；
构建药物描述系信息训练模型，并通过所述药物相互作用数据集进行训练，得到并保存最优模型；
将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型，同时识别药物相互作用数据集的药物实体，在药物数据库中找寻对应药物描述信息并保存，最后对结合的模型进行训练得到最终关系抽取模型。

2.根据权利要求1所述的方法，其特征在于，所述构建药物描述系信息训练模型，并通过所述药物相互作用数据集进行训练，得到并保存最优模型的步骤，具体包括：
同一时间接收第一药物的描述信息、第二药物的描述信息；
将第一药物的描述信息、第二药物的描述信息转换为向量表示；
分别获取第一药物与第二药物描述语句的前向信息和后向信息，然后将二者相结合，作为句子表示；
对句子表示进行线性变换，然后进行性归一化处理，选取类别概率最大的作为预测类别标签；
利用损失函数代入药物相互作用数据集训练，得到最优模型。

3.根据权利要求2所述的方法，其特征在于，得到句子表示的方法为：
BiLSTM获取语句的前向信息和后向信息，计算得到隐藏层的输出：

表示正向输入的语句，表示逆序输入的语句，表示正向输入的语句的输出，表示逆序输入的语句的输出，H为BiLSTM隐藏层的输出；
计算得到经过BiLSTM后，句子表示为：

表示前向输入的最后一个时间步的信息，表示后向输入的最后一个时间步的信息。

4.根据权利要求3所述的方法，其特征在于，所述预测类别标签通过以下方式得到：
先计算得到句子表示的线性变换：
h*＝[h1；h2]；
output＝W(fc)·h*+b(fc)；
其中，W(fc)和b(fc)分别为全连接层的权重参数和偏置参数，h1∈RN表示第一药物描述信息经过BiLSTM层的句子表示，h2∈RN表示第二药物描述信息经过BiLSTM层的句子表示，N表示BiLSTM隐藏层单元数目，output为线性变换输出，h*∈R2N为第一药物、第二药物句子表示的拼接；
根据线性变换进行归一化处理，选取最大的类别概率为预测类别标签：

其中，代表预测类别标签，output代表所述句子线性变换的输出，为归一化处理。

5.根据权利要求4所述的方法，其特征在于，所述损失函数为：

其中，y∈Rm代表真实类别标签，m代表类别标签数目，y和以one-hot向量表示，λ是L2正则化的超参数，θ为在模型中进行训练得到。

6.根据权利要求5所述的方法，其特征在于，所述EK-BiLSTM-Att-CapsNet模型使用的损失函数为：
L＝Tkmax(0，m+-||vk||)2+λ(...

【专利技术属性】
技术研发人员：琚生根，罗莘涛，刘宁宁，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人