基于多跳路径的生物医学知识库补全方法及装置制造方法及图纸

技术编号：33035119 阅读：23 留言：0更新日期：2022-04-15 09:12

本发明专利技术公开了一种基于多跳路径的生物医学知识库补全方法及装置，在生物医学知识库中存在着大量的关于疾病、药物和基因等实体的信息，补全知识库中实体之间缺失的关系可以改善许多重要的应用，例如药物设计和再利用。为了对生物医学知识库中缺少的实体关系进行补全，本发明专利技术使用了长短时记忆网络对生物医学知识库中存在的多跳路径集合进行编码，注意力机制对多跳路径集合的编码结果进行汇总，实现了实体关系补全。最后在药物和疾病为主的数据集上进行实验，实验结果表明，该方法充分地利用了路径信息，不使用外部工具，具有更好的竞争性。具有更好的竞争性。具有更好的竞争性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多跳路径的生物医学知识库补全方法及装置

[0001]本专利技术属于知识图谱
，尤其涉及一种基于多跳路径的生物医学知识库补全方法及装置。

技术介绍

[0002]了解癌症、HIV和COVID
‑
19等复杂疾病需要丰富的生物学、化学和医学知识。这些知识在发现疾病的治疗方法的过程中起着至关重要的作用——例如，确定药物靶点需要知道哪些基因或蛋白质与疾病有关，而设计药物需要预测药物分子是否会与特定的靶蛋白相互作用。此外，为了减轻设计新药的巨大成本，药物再利用涉及验证现有药物对其它疾病的作用。由于这些任务具有多个学科交叉重合的挑战性，因此需要机器学习技术来自动实现。因为生物医学中实体之间存在许多联系，但生物医学知识库中存在着实体关系的大量缺失，例如药物和疾病之间，疾病与基因之间等。因为基于路径的生物医学知识库补全方法不需要外部工具和逻辑规则，而受到广泛关注。路径指的是在生物医学知识库中，一对实体之间包含的实体和有向的实体关系组成的路径。而在生物医学知识库中两个实体之间单跳路径的数量远远少于多跳路径，并且多跳路径提供的信息多于单跳路径，因此基于多跳路径的生物医学知识库补全方法更受欢迎。在生物医学知识库中，一对实体之间的多跳路径有很多，但并不是每一条路径对关系补全都有贡献，因此随机获取的路径集合包含噪声。为了降低噪声路径的影响，注意力机制被广泛应用到路径集合中，注意力机制在模型训练过程中动态地对每条路径分配权重，并且将权重集中分配到对关系补全有贡献的路径上。

技术实现思路

[0003]本专利

【技术保护点】

【技术特征摘要】
1.一种基于多跳路径的生物医学知识库补全方法，其特征在于，包括以下步骤：步骤1：对生物医学知识库中的三元组数据进行预处理，包括：获取数据集中实体的名称及描述；将实体名称及描述转化为词向量的形式并保存；选择待测试的实体关系；从数据集中抽取多跳路径，并对路径进行负采样，将抽取的路径以及负采样得到的路径构成多跳路径集合，将多跳路径集合划分成训练集和测试集；步骤2：将预处理后的实体名称向量和实体描述向量集合输入到注意力机制中，以获取实体的最终表示向量；步骤3：将每条路径中实体的最终表示向量输入到长短时记忆网络LSTM中对实体进行编码，将LSTM每个时间步的隐藏状态作为本层输出；步骤4：将步骤3的输出向量和路径中包含的实体关系向量进行拼接，将拼接后的向量输入到LSTM中进行编码，将最后一个时间步的隐藏状态作为该条路径预测的实体关系向量；步骤5：重复步骤2
‑
4，对多跳路径集合中剩余的路径进行编码，得到预测的实体关系向量集合，将实体关系向量集合输入到注意力机制中，得到实体对缺失的实体关系。2.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法，其特征在于，所述步骤1中预处理具体为：(1.1)获取数据集中实体的名称及描述，对于数据集中缺少描述的实体，从DrugBank、Disease Ontology、Gene Ontology中抓取对应的实体描述；(1.2)使用预训练的词向量将实体名称转换为词向量，对实体描述进行分词，并将分词后的结果同实体名称一样转换为词向量集合，并保存；(1.3)在数据集中选择最常见的若干种实体关系作为被测关系；(1.4)使用广度优先方法在数据集中获取实体对之间的多跳路径，并对每对实体随机抽取若干条路径进行负采样；(1.5)将抽取的路径以及负采样得到的路径构成多跳路径集合，将多跳路径集合划分成训练集和测试集。3.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法，其特征在于，所述步骤2中获取实体的最终表示向量具体为：将实体名称e
k
和实体描述τ
k
＝{t
k，1
，
…
，t
k,n
‑1，t
k,n
}输入到注意力机制中，计算实体描述中不同词的权重α
k，o
：z
k，o
＝f(V(t
k，o
)+V(e
k
))，o＝1，2，
…
，n其中α
k，o
代表实体描述τ
k
中第o个词t
k，o
的权重，z
k，o
是一个中间变量，V(t
k，o
)，V(e
k
)分别代表实体描述τ
k
中第o个词的向量和实体名称e
k
向量，f(
·
)是全连接网络，n表示实体描述中词的数量；将得到的权重α
k，o
与实体描述向量集合的乘积之和作为实体e
k
的最终表示向量*表示按位相乘。4.根据权利要求3所述的基于多跳路径的生物医学知识库补全方法，其特征在于，所述
步骤3中对实体进行编码具体为：每条路径中包含m个实体，使用L...

【专利技术属性】
技术研发人员：王引苗，韩志敏，游科友，林志赟，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人