基于知识图谱的老药新用分析方法和系统技术方案

技术编号：26845659 阅读：27 留言：0更新日期：2020-12-25 13:07

本发明专利技术公开了一种基于知识图谱的老药新用分析方法，包括：获取知识图谱；提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系；将所有实体和关系向量化，得到每个实体的特征向量和关系的特征向量；确定一个或多个候选机器学习模型；对候选机器学习模型进行训练；对候选机器学习模型进行验证并比较，挑选出最优机器学习模型；应用最优模型针对特定疾病进行预测，获得多个与该特定疾病相关的药物实体。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的老药新用分析方法和系统
本专利技术涉及化学信息学和生物信息学领域。具体而言，本专利技术涉及基于知识图谱的老药新用分析方法和系统。
技术介绍
生物医学知识图谱通常是一个多关系的有向图，其中结点代表实体，边代表关系，这种图结构的知识库已经成为具有巨大价值的资源，具有潜在的应用价值，有助于精确医学和临床决策支持，在医疗保健实践和研究中起着越来越重要的作用。但是，由于生物医学数据构建的知识图谱通常庞大且嘈杂以及下游任务的复杂性和高知识要求，在构建和应用方面仍然存在许多挑战。实体间链接预测任务，是目前生物医疗知识图谱应用最为广泛的一个下游任务，可用于多个领域的分析研究，如通过药物与疾病的链接预测可以研究制药领域中老药新用的问题。尽管生物医疗知识图谱的出现为这些研究课题提供了一种新的研究数据，但是由于生物医学数据构建的知识图谱通常庞大且嘈杂，难以有效地学习知识图谱中所蕴含的大量信息，包括低阶或高阶的邻居信息以及有向的关系信息，因此这些下游任务的实验效果往往不尽人意，未能达到预期的效果。因此，近年来研究人员一直致力于如何充分有效地学习知识图谱所蕴含的大量知识，提升知识图谱下游任务的实验效果，以得到预期的实验效果。而随着深度学习方法的出现，机器学习越来越受到研究人员的关注，数据驱动分析已成为许多研究的常规程序。在许多这样的研究应用中，虽然机器学习方法在生物医学知识图谱应用中的使用仍然受到实体的特征属性缺乏的限制，但依然显示出了其与传统方法竞争甚至超越传统方法的强大潜力。当前计算机领域对于知识图谱...

【技术保护点】
1.一种基于知识图谱的老药新用分析方法，包括：/n获取知识图谱；/n提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系；/n将所有实体和关系向量化，得到每个实体的特征向量和关系的特征向量；/n确定一个或多个候选机器学习模型；/n对候选机器学习模型进行训练；/n对候选机器学习模型进行验证并比较，挑选出最优机器学习模型；/n应用最优模型针对特定疾病进行预测，获得多个与该特定疾病相关的药物实体。/n

【技术特征摘要】
1.一种基于知识图谱的老药新用分析方法，包括：
获取知识图谱；
提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系；
将所有实体和关系向量化，得到每个实体的特征向量和关系的特征向量；
确定一个或多个候选机器学习模型；
对候选机器学习模型进行训练；
对候选机器学习模型进行验证并比较，挑选出最优机器学习模型；
应用最优模型针对特定疾病进行预测，获得多个与该特定疾病相关的药物实体。

2.如权利要求1所述的基于知识图谱的老药新用分析方法，其特征在于，疾病实体、药物实体、基因实体之间的关系包括：化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系，疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系。

3.如权利要求1所述的基于知识图谱的老药新用分析方法，其特征在于，还包括：对于疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系，以一个三元组<头实体，关系，尾实体>为一个样本，将所有样本构建为三元组数据集，将三元组数据集随机划分成训练集、验证集和测试集，训练集用于训练深度学习模型，验证集在训练过程中验证模型的表现情况，测试集作为独立验证集，最终评判模型的表现情况。

4.如权利要求3所述的基于知识图谱的老药新用分析方法，其特征在于，对候选机器学习模型进行验证并比较，挑选出最优机器学习模型包括：选择指标Hit@K和MeanRank，在测试过程中，对于一组三元组，将头实体或尾实体替换成任意一种其他的实体，共n-1个，保持另一个实体以及关系不变，只变其中一个实体，这样得到了n-1个新的关系三元组，然后对这些三元组计算实体关系距离，将这n-1个三元组按照距离从小到大排列，从而计算Hit@K以及MeanRank，从第一个到第K个是否能够遇到真实的实体，遇到了则为命中，Hit@K代表了在前K个命中的比率，而MeanRank是计算在测试集里，平均到第多少个才能命中正确的结果。

5.如权利要求1所述的基于知识图谱的老药新用分析方法，其特征在于，所述一个或多个候选机器学习模型包括现有的模型和新建立的模型。

6.如权利要求5所述的基于知识图谱的老药新用分析方法，其特征在于，所述新建立的模型是图注意力机制的图嵌入学习HRGAT模型，其算法流程如下：

bijk＝LeakyReLU(W2cijk)
其中yi与yj为知识图谱中实体i，j的特征向量，rk为知识...

【专利技术属性】
技术研发人员：牛张明，郑双佳，饶家华，宋颖，
申请(专利权)人：牛张明，韦德·门佩斯史密斯，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人