基于三分支CNN的药物靶标结合亲和力预测方法技术

技术编号:37708795 阅读:9 留言:0更新日期:2023-06-01 23:59
一种基于三分支CNN的药物靶标结合亲和力预测方法,包括采集DTA数据集,获取药物分子的SMILES序列和蛋白质氨基酸序列;采用RDKIT将所述SMILES序列预处理为具有顶点特征和邻接矩阵的图形;构建结合GAT

【技术实现步骤摘要】
基于三分支CNN的药物靶标结合亲和力预测方法


[0001]本专利技术涉及生物和药物信息学以及人工智能领域,尤其涉及一种基于三分支CNN的药物靶标结合亲和力预测方法。

技术介绍

[0002]蛋白质涉及细胞生命活动的方方面面,在人体免疫中起着至关重要的作用。许多疾病是由蛋白质的功能障碍引起的。特定的药物可以改变体内原生蛋白质的工作方式,从而达到预期的治疗效果。在新药的发现和重新定位中,能否准确预测药物靶点结合亲和力成为研究的重点。
[0003]虽然实验室中的实验方法已经发展到筛选和表征化学分子,但是从潜在化合物库中大规模完成鉴定是十分耗时耗力的。为了节省时间成本和人工成本,并有效利用资源,已经开发了许多计算机辅助药物设计方法。虚拟筛选是主要方法之一。它通过许多计算模型预测可能的潜在药物,并从大规模化合物配体库中筛选出感兴趣的受体蛋白的候选配体。虚拟筛选可以大大减少候选配体的数量,显著缩短实验周期,从而加速药物发现。
[0004]虚拟筛选方法通常基于预测药物靶标相互作用或药物靶标亲和力(DTA),主要表现为输入是药物和蛋白质进行编码后的矢量或图形,任务是分类问题或回归问题。然而,相互作用可以理解为一系列连续的值,用于表示不同药物靶点相互作用的强度。
[0005]现在有各种基于深度学习的技术方案来研究药物靶向结合,然而,在深度学习模型中,大多数实验都是以字符串的形式表达药物,一维序列的形式并不是分子的自然表达方式,当我们使用字符串时,分子的结构信息就丢失了。另外,大多方法只有单分支CNN,经过卷积层叠加后,整个特征信息被捕获成一小部分,此时原始数据的一些局部特征会丢失。

技术实现思路

[0006]本专利技术要解决的技术问题是提供一种基于三分支CNN的药物靶标结合亲和力预测方法。
[0007]为了解决上述技术问题,本专利技术采用的技术方案是:一种基于三分支CNN的药物靶标结合亲和力预测方法,包括以下具体步骤:S1、采集DTA数据集,获取药物分子的SMILES序列和蛋白质氨基酸序列;S2、采用RDKIT将所述SMILES序列预处理为具有顶点特征和邻接矩阵的图形;S3、构建结合GAT

GCN和MCNN的DTA预测模型,将所述SMILES序列、所述蛋白质氨基酸序列、所述图形输入所述DTA预测模型内输出预测结果;S4、采用一致性指数和均方误差评估所述DTA预测模型。
[0008]优选的,步骤S1中,所述DTA数据集包括Davis数据集和KIBA数据集。
[0009]优选的,步骤S1中,选择所述SMILES序列作为药物特征,选择所述蛋白质氨基酸序列作为蛋白质特征。
[0010]优选的,所述步骤S2还包括在预处理过程中加入自环,并采用标签方式编码蛋白质氨基酸序列。
[0011]优选的,所述步骤S3具体包括:S31、将步骤S2中的具有顶点特征和邻接矩阵的图形输入三个CAT层,输出为特征矩阵;S32、将所述特征矩阵输入GCN层,输出为全局最大池化层和全局平均池化层,计算得出图形表示向量;S33、采用卷积神经网络对蛋白质氨基酸序列的特征进行压缩,从低维空间压缩至高维空间,再采用三分支CNN提取压缩后的蛋白质氨基酸序列的局部特征和全局特征;S34、将蛋白质氨基酸序列的局部特征和全局特征和图形表示向量进行特征融合输入至所述DTA预测模型的预测模块中,得出DTA预测值。
[0012]本专利技术的范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案等。
[0013]由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:本专利技术提供通过以图的形式表示药物分子,使用GAT和GCN网络来学习药物分子的表示,蛋白质氨基酸序列被作为由三分支CNN学习的特征,分子的结构信息不会丢失,最后,将两个特征融合在一起,输入到预测模块中进行DTA预测,采用三分支CNN,使用三个不同数量的卷积层和不同大小的卷积核,不仅能够获得较多的全局特征,局部特征也不会丢失,预测精确有效。
附图说明
[0014]图1为本专利技术所提供的预测方法的流程图;
[0015]图2为DTA预测模型的框架示意图;
具体实施方式
[0016]为使本专利技术的目的、技术方案和优点更加的清楚,下面结合说明书附图,对本专利技术的技术方案进行更清楚、完整地表述。
[0017]如图1所示,图1是本专利技术基于三分支CNN的药物靶标结合亲和力预测方法的流程图。具体而言,包括如下步骤:
[0018]步骤S1、采集DTA数据集,数据集上采用的是两个DTA方向的公共数据集,分别为Davis数据集和KIBA数据集,并将两个数据集划分训练集和测试集。
[0019]Davis数据集收集了临床相关激酶蛋白家族和相关抑制剂及其各自的解离常数Kd值,而KIBA数据集是一个更通用的数据集,比Davis大得多。
[0020]Davis数据集中包含30056个药物

靶标蛋白对相互作用,涵盖442个靶标蛋白和68个药物化合物分子。在Davis数据集中,只有K
d
被用来衡量激酶抑制剂的生物活性;而KIBA结合解离常数(K
d
)、抑制常数(K
i
)和结合常数(K
a
)得到蛋白质家族和相关抑制剂的KIBA分数。
[0021]KIBA数据集中涉及229种蛋白质和2111种药物化合物,表1总结了两个数据集中靶标蛋白、药物分子和药物分子

靶标蛋白对相互作用的数量。
[0022]表1:Davis和KIBA数据集详细信息
[0023]数据集化合物蛋白质相互作用数Davis6844230,056KIBA2111229118,254
[0024]SMILES(Simplified molecular input Iine entry specification),即简化分
子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES序列是药物分子的线形表示符号,用于用单行文本表达化合物的结构,可以表示药物分子的原子类型以及原子之间的连接关系等信息。
[0025]由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,它采用纵向优先遍历树算法。转化时,先去掉氢,再把环打开。表示时,被拆掉的键端的原子用数字标记,支链写在小括号里。通过开源化学信息软件RDKit可以将药物分子SMILES序列转化为药物分子的结构图。
[0026]每一条蛋白质序列是由二十余种氨基酸排列组合形成的。所述的氨基酸序列包含了氨基酸的类型以及氨基酸之间位置关系的信息,同时也是蛋白质的一级氨基酸序列表示。
[0027]获取药物分子的SMILES序列和蛋白质氨基酸序列,选择药物的SMILES序列作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三分支CNN的药物靶标结合亲和力预测方法,其特征在于:包括以下具体步骤:S1、采集DTA数据集,获取药物分子的SMILES序列和蛋白质氨基酸序列;S2、采用RDKIT将所述SMILES序列预处理为具有顶点特征和邻接矩阵的图形;S3、构建结合GAT

GCN和MCNN的DTA预测模型,将所述SMILES序列、所述蛋白质氨基酸序列、所述图形输入所述DTA预测模型内输出预测结果;S4、采用一致性指数和均方误差评估所述DTA预测模型。2.根据权利要求1所述的基于三分支CNN的药物靶标结合亲和力预测方法,其特征在于:步骤S1中,所述DTA数据集包括Davis数据集和KIBA数据集。3.根据权利要求1所述的基于三分支CNN的药物靶标结合亲和力预测方法,其特征在于:步骤S1中,选择所述SMILES序列作为药物特征,选择所述蛋白质...

【专利技术属性】
技术研发人员:陆遥遥吴宏杰
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1