【技术实现步骤摘要】
一种基于图表示和深度学习的药物发现方法
[0001]本专利技术涉及生物信息处理
,特别是涉及一种基于图表示和深度学习的药物发现方法。
技术介绍
[0002]传统的新药研制面临低通量、长周期、高成本和高风险的困境,投入使用之前需要确认其毒性和副作用。智能计算技术运用药物发现中,不仅大大缩短了新药研发时间,还可以提高成功率。高效的药物发现方法可以快速有效地帮助医生找到对症治疗的药物,具有重要的实际意义。
[0003]基于智能计算的药物发现技术大多是从药物的靶点、副作用、化学性质、指纹等属性中提取特征。然后使用统计方法、各种机器学习算法和深度学习算法进行任务的分类和预测。然而,由于相关生物信息的缺乏和繁琐的特征工程,传统方法获得的特征要么形成一个大而稀疏的二进制矩阵,要么形成一个密而小的相似矩阵,这使得模型的鲁棒性不足且伸缩性较差。
[0004]此外,生物数据涉及多种数据库,且数据结构不同,数据具有多样性,数据处理存在难度。
技术实现思路
[0005]本专利技术的目的在于提供一种基于图表示和深度学习的药物发现方法。
[0006]本专利技术使用知识图谱对数据进行处理,图中的节点代表不同的实体,如药物、疾病、蛋白质靶点、子结构、副作用和通路。发现药物和靶点、药物和药物之间的新关联的任务可以表述为一个链接预测任务。图嵌入技术提供最先进的链接预测结果,通过捕获药物及其潜在的邻域,将图中的每个节点投射成一个密集向量。这些特征向量可以用于其他下游任务,如药物
‑
靶点相互作 ...
【技术保护点】
【技术特征摘要】
1.一种基于图表示和深度学习的药物发现方法,其特征在于,包括以下步骤:步骤一:从DrugBank数据库、KEGG数据库、PharmGKB数据库中提取生物信息数据,并进行实体命名映射;步骤二:对来自KEGG数据库的子数据库的生物信息数据进行整合,用于药物
‑
靶点相互作用预测的KG
‑
DTI知识图谱;对来自DrugBank数据库、PharmGKB数据库以及KEGG
‑
drug数据库的数据进行整合,构建用于药物
‑
药物相互作用预测的KG
‑
DDI知识图谱;步骤三:构建MHRW2Vec图表示模型,所述MHRW2Vec图表示模型包括MHRW随机游走模型和Word2Vec模型两个组成部分,利用所述MHRW2Vec模型对步骤二的知识图谱进行图表示学习;步骤四:结合文本卷积神经网络、双向长短时记忆网络,并引入注意力机制构建TBAN模型,采用批标准化策略加速模型收敛,同时在每层网络中引入高斯噪声优化TBAN模型性能,训练结束后得到预测模型;步骤五:利用预测模型进行预测。2.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤一中,所述生物信息数据包括药物
‑
靶点相互作用、药物
‑
药物相互作用、化学性质、疾病、靶点蛋白。3.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤一中,所述实体命名映射同时包括如下几种方式:获取已知药物
‑
药物相互作用对;将PubChem数据库、PharmGKB数据库和KEGG数据库的药物ID编号映射成DrugBank数据库的药物ID编号;将药物靶点黄金标准数据集映射到KG
‑
DTI相互作用知识图谱的实体节点上。4.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤二中,所述KG
‑
DTI知识图谱和所述KG
‑
DDI知识图谱中包含的与药物相关的实体有:药物、基因、蛋白质、途径、酶和表型;所述KG
‑
DTI知识图谱中不包含关于药物
‑
靶点相互作用的生物信息数据;所述KG
‑
DDI知识图谱中不包含关于药物
‑
药物相互作用的生物信息数据。5.如权利要求1所述的基于图表示和深度学习的药物发现方法,其特征在于:步骤三中,所述MHRW2Vec模型中,所述MHRW模型根据给定的任意一个概率分布,构造一个以该概率分布为静态分布的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。