【技术实现步骤摘要】
一种药物分子与靶标蛋白的结合亲和力预测方法
[0001]本专利技术属于药物研发
,具体涉及一种药物分子与靶标蛋白的结合亲和力预测方法。
技术介绍
[0002]蛋白质和配体小分子间的相互作用是许多基础生物过程的核心。内源性小分子在细胞的许多信号通路中扮演着信使的角色,外源小分子药物通过信号级联与靶标蛋白相互作用来调节其功能。理解受体蛋白与配体相互作用还有助于理解细胞间通讯。细胞间通讯可以协调生物发育、维持体内稳态和单细胞功能。当细胞与细胞不能正确地相互作用或细胞不正确地解码分子信息时,就会引起疾病。了解蛋白质配体的相互作用对于了解许多生物系统和辅助药物开发工作意义重大。
[0003]因此,蛋白质和配体之间的结合亲和力预测在药物发现和开发中起着至关重要的作用。然而,通过实验来确定蛋白质
‑
配体的结合亲和力是非常耗费时间和资源的。对蛋白质
‑
配体分子间结合亲和力的计算方法研究主要可以分为四大类,包括基于配体相似度的计算方法、计算结合自由能的分子动力学模拟法、分子对接中的传统打分函数 ...
【技术保护点】
【技术特征摘要】
1.一种药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,步骤为:数据整合;所述整合的数据包括靶标蛋白质的序列和配体分子的SMILES;将靶标蛋白质的序列和配体分子的SMILES整合在整合数据集中;数据编码:对整合数据集中的靶标蛋白质序列和配体分子的SMILES分别进行编码,得到编码数据集;亲和力预测:将编码数据集按批次输入到亲和力预测模型中,得到亲和力预测结果。2.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,所述靶标蛋白质序列的编码方法为:对每个靶标蛋白质都用一个设定长度的字符数据集表征;所述的字符数据集中包括表示开始的特殊字符、表征靶标蛋白质序列的字母四元组、表示结束的特殊字符;并且当靶标蛋白质序列的长度小于设定长度时,使用表示填充的特殊字母进行填充占位;所述表征蛋白特征的字母四元组包括二级结构类别、是否暴露在溶剂里、物理化学特性和长度;字母四元组的编码规则为:3.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,所述配体分子的编码方法为:用一个设置长度的配体数据集表征,所述配体数据集包括表示开始的特殊字符、配体分子的SMILES、表示结束的特殊字符;当配体分子的SMILES的长度小于设置长度时,用表示填充的特殊字母进行填充占位;当配体分子的SMILES的长度大于设置长度时,直接截断。4.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于:所述亲和力预测模型,为深度神经网络模型,包括蛋白质网络模块、配体网络模块、卷积池化层、全连接层;蛋白质网络模块的输出和配体网络模块的输出在卷积池化层聚合后输入到全连接层,全连接层输出预测结果;所述蛋白质网络模块包括蛋白质嵌入层、蛋白质RNN层和蛋白质注意力层;配体网络模块包括配体嵌入层、配体RNN层和配体注意力层。5.根据权利要求4所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于:在对亲和力预测模型训练时,蛋白质网络模块的输出和配体网络模块的输出在卷积池化层聚合后与图神经网络的输出结合后输入到全连接层,所述图神经网络的输入为图结构数据。6.根据权利要求5所述的药物...
【专利技术属性】
技术研发人员:杨晨星,柯颂,陈俊,郭谦,
申请(专利权)人:上海天鹜科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。