当前位置: 首页 > 专利查询>牛张明专利>正文

基于知识图谱的老药新用分析方法和系统技术方案

技术编号:26845659 阅读:27 留言:0更新日期:2020-12-25 13:07
本发明专利技术公开了一种基于知识图谱的老药新用分析方法,包括:获取知识图谱;提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;确定一个或多个候选机器学习模型;对候选机器学习模型进行训练;对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。

【技术实现步骤摘要】
基于知识图谱的老药新用分析方法和系统
本专利技术涉及化学信息学和生物信息学领域。具体而言,本专利技术涉及基于知识图谱的老药新用分析方法和系统。
技术介绍
生物医学知识图谱通常是一个多关系的有向图,其中结点代表实体,边代表关系,这种图结构的知识库已经成为具有巨大价值的资源,具有潜在的应用价值,有助于精确医学和临床决策支持,在医疗保健实践和研究中起着越来越重要的作用。但是,由于生物医学数据构建的知识图谱通常庞大且嘈杂以及下游任务的复杂性和高知识要求,在构建和应用方面仍然存在许多挑战。实体间链接预测任务,是目前生物医疗知识图谱应用最为广泛的一个下游任务,可用于多个领域的分析研究,如通过药物与疾病的链接预测可以研究制药领域中老药新用的问题。尽管生物医疗知识图谱的出现为这些研究课题提供了一种新的研究数据,但是由于生物医学数据构建的知识图谱通常庞大且嘈杂,难以有效地学习知识图谱中所蕴含的大量信息,包括低阶或高阶的邻居信息以及有向的关系信息,因此这些下游任务的实验效果往往不尽人意,未能达到预期的效果。因此,近年来研究人员一直致力于如何充分有效地学习知识图谱所蕴含的大量知识,提升知识图谱下游任务的实验效果,以得到预期的实验效果。而随着深度学习方法的出现,机器学习越来越受到研究人员的关注,数据驱动分析已成为许多研究的常规程序。在许多这样的研究应用中,虽然机器学习方法在生物医学知识图谱应用中的使用仍然受到实体的特征属性缺乏的限制,但依然显示出了其与传统方法竞争甚至超越传统方法的强大潜力。当前计算机领域对于知识图谱的应用已经相当广泛,常见于搜索引擎、推荐系统,问答系统,而其中最为重要的技术则是知识表示学习,通过以深度学习为代表的学习技术,将实体的信息表示为稠密低维的实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂关联,通常有基于翻译模型(Trans系列)的知识表示学习,基于矩阵分解模型的知识表示学习,例如RESACL,以及基于神经网络的模型的知识表示学习。这些知识表示学习方法,都是通过一定的建模方法,将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。因此,尽管它们已经成功应用于生物医学领域之外的问题解答,信息提取和命名实体歧义消除等知识图谱的任务上,但它们在生物医学知识图谱应用中的使用仍然缺乏实验验证。
技术实现思路
为解决上述问题,本专利技术采用利用公开的任意的知识图谱数据集,利用背景知识为所有疾病、药物和基因实体提供具有生物化学意义的特征属性,训练得到一个有效的最优的图嵌入学习模型,充分学习知识图谱中实体间的高阶或低阶的邻居信息以及有向的关系信息,并利用该模型对特定的疾病进行老药新用的预测,得到分数最高的排名前十的可能存在关系的药物,并通过大量的文献证明了该预测结果是有效的和可靠的,为老药新用在知识图谱中的研究提供了一种切实有效的新的分析方法和技术。本专利技术的实施例利用图嵌入方法对生物医疗知识图谱中老药新用下游任务的探索。本专利技术的方法适用于任意知识图谱,可通过该方法技术利用任意的知识图谱数据集研究某些疾病的老药新用效果,可达到预期的实验结果。根据本专利技术的一个方面,提供一种基于知识图谱的老药新用分析方法,包括:获取知识图谱;提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;确定一个或多个候选机器学习模型;对候选机器学习模型进行训练;对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。在本专利技术的一个实施例中,疾病实体、药物实体、基因实体之间的关系包括:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系。在本专利技术的一个实施例中,基于知识图谱的老药新用分析方法还包括:对于疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系,以一个三元组<头实体,关系,尾实体>为一个样本,将所有样本构建为三元组数据集,将三元组数据集随机划分成训练集、验证集和测试集,训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,测试集作为独立验证集,最终评判模型的表现情况。在本专利技术的一个实施例中,对候选机器学习模型进行验证并比较,挑选出最优机器学习模型包括:选择指标Hit@K和MeanRank,在测试过程中,对于一组三元组,将头实体或尾实体替换成任意一种其他的实体,共n-1个,保持另一个实体以及关系不变,只变其中一个实体,这样得到了n-1个新的关系三元组,然后对这些三元组计算实体关系距离,将这n-1个三元组按照距离从小到大排列,从而计算Hit@K以及MeanRank,从第一个到第K个是否能够遇到真实的实体,遇到了则为命中,Hit@K代表了在前K个命中的比率,而MeanRank是计算在测试集里,平均到第多少个才能命中正确的结果。在本专利技术的一个实施例中,一个或多个候选机器学习模型包括现有的模型和新建立的模型。在本专利技术的一个实施例中,新建立的模型是图注意力机制的图嵌入学习HRGAT模型,其算法流程如下:bijk=LeakyReLU(W2cijk)其中yi与yj为知识图谱中实体i,j的特征向量,rk为知识图谱中实体i,j之间的关系的特征向量表示,W1与W2为机器学习模型中训练的参数,||为连接操作符,cijk为该神经网络学习后得到的三元组<i,j,k>的特征向量,而bijk则是cijk经过激活函数之后得到的向量矩阵;根据学习到的bijk得到相对注意力值αijk:其中为实体i的邻居实体,为实体i,n之间的关系r,binr为三元组<i,n,k>的向量矩阵;得到更新之后的实体的向量表示:其中m为多头注意力机制的数量,||为连接操作符。在本专利技术的一个实施例中,应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体包括:应用最优模型对特定疾病进行预测,分别预测得到打分最高的十个可能与该疾病相关的药物实体;这些药物实体与疾病的关系,是属于未曾出现在所用的数据集中的,是该模型方法对这两种疾病可能存在的关系的推测结果。根据本专利技术的另一个实施例中,提供一种基于知识图谱的老药新用分析系统,包括:数据预处理单元,所述数据预处理单元获取知识图谱,提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;量化单元,所述量化单元将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的老药新用分析方法,包括:/n获取知识图谱;/n提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;/n将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;/n确定一个或多个候选机器学习模型;/n对候选机器学习模型进行训练;/n对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;/n应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。/n

【技术特征摘要】
1.一种基于知识图谱的老药新用分析方法,包括:
获取知识图谱;
提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;
将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;
确定一个或多个候选机器学习模型;
对候选机器学习模型进行训练;
对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;
应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。


2.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,疾病实体、药物实体、基因实体之间的关系包括:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系。


3.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,还包括:对于疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系,以一个三元组<头实体,关系,尾实体>为一个样本,将所有样本构建为三元组数据集,将三元组数据集随机划分成训练集、验证集和测试集,训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,测试集作为独立验证集,最终评判模型的表现情况。


4.如权利要求3所述的基于知识图谱的老药新用分析方法,其特征在于,对候选机器学习模型进行验证并比较,挑选出最优机器学习模型包括:选择指标Hit@K和MeanRank,在测试过程中,对于一组三元组,将头实体或尾实体替换成任意一种其他的实体,共n-1个,保持另一个实体以及关系不变,只变其中一个实体,这样得到了n-1个新的关系三元组,然后对这些三元组计算实体关系距离,将这n-1个三元组按照距离从小到大排列,从而计算Hit@K以及MeanRank,从第一个到第K个是否能够遇到真实的实体,遇到了则为命中,Hit@K代表了在前K个命中的比率,而MeanRank是计算在测试集里,平均到第多少个才能命中正确的结果。


5.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,所述一个或多个候选机器学习模型包括现有的模型和新建立的模型。


6.如权利要求5所述的基于知识图谱的老药新用分析方法,其特征在于,所述新建立的模型是图注意力机制的图嵌入学习HRGAT模型,其算法流程如下:



bijk=LeakyReLU(W2cijk)
其中yi与yj为知识图谱中实体i,j的特征向量,rk为知识...

【专利技术属性】
技术研发人员:牛张明郑双佳饶家华宋颖
申请(专利权)人:牛张明韦德·门佩斯史密斯
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1