一种基于图表示和深度学习的药物发现方法技术

技术编号:34853103 阅读:21 留言:0更新日期:2022-09-08 07:53
本发明专利技术公开了一种基于图表示和深度学习的药物发现方法,应用于药物

【技术实现步骤摘要】
一种基于图表示和深度学习的药物发现方法


[0001]本专利技术涉及生物信息处理
,特别是涉及一种基于图表示和深度学习的药物发现方法。

技术介绍

[0002]传统的新药研制面临低通量、长周期、高成本和高风险的困境,投入使用之前需要确认其毒性和副作用。智能计算技术运用药物发现中,不仅大大缩短了新药研发时间,还可以提高成功率。高效的药物发现方法可以快速有效地帮助医生找到对症治疗的药物,具有重要的实际意义。
[0003]基于智能计算的药物发现技术大多是从药物的靶点、副作用、化学性质、指纹等属性中提取特征。然后使用统计方法、各种机器学习算法和深度学习算法进行任务的分类和预测。然而,由于相关生物信息的缺乏和繁琐的特征工程,传统方法获得的特征要么形成一个大而稀疏的二进制矩阵,要么形成一个密而小的相似矩阵,这使得模型的鲁棒性不足且伸缩性较差。
[0004]此外,生物数据涉及多种数据库,且数据结构不同,数据具有多样性,数据处理存在难度。

技术实现思路

[0005]本专利技术的目的在于提供一种基于图表示和深度学习的药物发现方法。
[0006]本专利技术使用知识图谱对数据进行处理,图中的节点代表不同的实体,如药物、疾病、蛋白质靶点、子结构、副作用和通路。发现药物和靶点、药物和药物之间的新关联的任务可以表述为一个链接预测任务。图嵌入技术提供最先进的链接预测结果,通过捕获药物及其潜在的邻域,将图中的每个节点投射成一个密集向量。这些特征向量可以用于其他下游任务,如药物

靶点相互作用预测、药物

药物相互作用预测等。
[0007]本专利技术提供的一种基于图表示和深度学习的药物发现方法,包括如下步骤:
[0008]步骤一:从DrugBank数据库、KEGG数据库、PharmGKB数据库中提取生物信息数据,并进行实体命名映射;
[0009]步骤二:对来自KEGG数据库的子数据库(包括KEGG

drug数据库、KEGG

genes数据库、KEGG

disease数据库和KEGG

pathway数据库)的生物信息数据进行整合,用于药物

靶点相互作用预测的KG

DTI知识图谱;对来自DrugBank数据库、PharmGKB数据库以及KEGG

drug数据库的数据进行整合,构建用于药物

药物相互作用预测的KG

DDI知识图谱;
[0010]步骤三:构建MHRW2Vec图表示模型,MHRW2Vec图表示模型包括MHRW随机游走模型和Word2Vec模型两个组成部分,利用MHRW2Vec模型对步骤二的知识图谱进行图表示学习;
[0011]步骤四:结合文本卷积神经网络、双向长短时记忆网络,并引入注意力机制构建TBAN模型,采用批标准化策略加速模型收敛,同时在每层网络中引入高斯噪声优化TBAN模型性能,训练结束后得到预测模型;
[0012]步骤五:利用预测模型进行预测。
[0013]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:步骤一中,生物信息数据包括但不限于药物

靶点相互作用、药物

药物相互作用、化学性质、疾病、靶点蛋白。
[0014]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:步骤一中,实体命名映射同时包括如下几种方式:获取已知药物

药物相互作用对;将PubChem数据库、PharmGKB数据库和KEGG数据库的药物ID编号映射成DrugBank数据库的药物ID编号;将药物靶点黄金标准数据集映射到KG

DTI知识图谱的实体节点上。
[0015]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:KG

DTI知识图谱和KG

DDI知识图谱中包含的与药物相关的实体有:药物、基因、蛋白质、途径、酶和表型;KG

DTI知识图谱中不包含关于药物

靶点相互作用的生物信息数据;KG

DDI知识图谱中不包含关于药物

药物相互作用的生物信息数据。对于相关程序算法具体为:剔除KG

DTI知识图谱中包含“kegg_vocabulary:target”字符串的三元组,并剔除KG

DDI知识图谱中包含“drugbank_vocabulary:ddi

interactor

in”字符串和“kegg_vocabulary:Interaction”字符串的三元组。
[0016]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:步骤三中,MHRW2Vec模型中,MHRW模型根据给定的任意一个概率分布,构造一个以该概率分布为静态分布的马尔科夫链,然后执行该马尔科夫链到达收敛之后(每个点被访问的概率服从静态分布)开始采样,生成节点序列,此时获得的采样集合近似认为是服从给定分布π的;Word2Vec模型将MHRW模型的采样节点转换为特征向量,并将特征向量映射到药物

靶点相互作用和药物

药物相互作用的数据集中。
[0017]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:MHRW模型将Metropolis_Hasting算法引入随机游走,以无偏取样的方式生成节点序列;Metropolis_Hasting算法构造一个马尔科夫链,使马尔科夫链的静止状态分布是期望分布,所构建的马尔科夫链的概率表示为:
[0018][0019]式(1)中,p
x,y
是从节点x转移到节点y的概率,是接受概率,表示在构建马尔科夫链时是否接受新生成的状态;1


z≠x
q
x,y
是不接受新状态的概率之和,即停留在当前节点的概率;μ(
·
)是期望分布的静止状态;
[0020]由于u(
·
)是均匀分布的,所以μ(y)=μ(x),则MHRW模型的转移概率表示为:
[0021][0022]式(2)中p
u,v
是u节点到v节点的过渡概率,k
u
是u节点的度数,是选择(节点u/节点v)和1中的最小值。
[0023]进一步地,本专利技术提供的基于图表示和深度学习的药物发现方法,还具有这样的特征:步骤四中,在TBAN模型结构的训练过程中使用到的损失函数为交叉熵损失函数:
[0024][0025]式中(11)L为损失函数值,N为样本数,y
i
表示样本i的标签,正例为1,负例为0,p
i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图表示和深度学习的药物发现方法,其特征在于,包括以下步骤:步骤一:从DrugBank数据库、KEGG数据库、PharmGKB数据库中提取生物信息数据,并进行实体命名映射;步骤二:对来自KEGG数据库的子数据库的生物信息数据进行整合,用于药物

靶点相互作用预测的KG

DTI知识图谱;对来自DrugBank数据库、PharmGKB数据库以及KEGG

drug数据库的数据进行整合,构建用于药物

药物相互作用预测的KG

DDI知识图谱;步骤三:构建MHRW2Vec图表示模型,所述MHRW2Vec图表示模型包括MHRW随机游走模型和Word2Vec模型两个组成部分,利用所述MHRW2Vec模型对步骤二的知识图谱进行图表示学习;步骤四:结合文本卷积神经网络、双向长短时记忆网络,并引入注意力机制构建TBAN模型,采用批标准化策略加速模型收敛,同时在每层网络中引入高斯噪声优化TBAN模型性能,训练结束后得到预测模型;步骤五:利用预测模型进行预测。2.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤一中,所述生物信息数据包括药物

靶点相互作用、药物

药物相互作用、化学性质、疾病、靶点蛋白。3.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤一中,所述实体命名映射同时包括如下几种方式:获取已知药物

药物相互作用对;将PubChem数据库、PharmGKB数据库和KEGG数据库的药物ID编号映射成DrugBank数据库的药物ID编号;将药物靶点黄金标准数据集映射到KG

DTI相互作用知识图谱的实体节点上。4.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤二中,所述KG

DTI知识图谱和所述KG

DDI知识图谱中包含的与药物相关的实体有:药物、基因、蛋白质、途径、酶和表型;所述KG

DTI知识图谱中不包含关于药物

靶点相互作用的生物信息数据;所述KG

DDI知识图谱中不包含关于药物

药物相互作用的生物信息数据。5.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤三中,所述MHRW2Vec模型中,所述MHRW模型根据给定的任意一个概率分布,构造一个以该概率分布为静态分布的...

【专利技术属性】
技术研发人员:林晓丽张硕张晓龙
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1