无需精确复合物结构的绝对结合自由能计算方法技术

技术编号：41336652 阅读：2 留言：0更新日期：2024-05-20 09:55

本发明专利技术公开了一种无需精确复合物结构的绝对结合自由能计算方法，包括：步骤一，基于受体蛋白和配体结构，采用软件得到粗糙复合物结构，并用WangLandau模拟方法，以配体和蛋白质的分子结构体系、分子间相互作用的势能函数为主要模拟参数作为输入进行分子动力学模拟，得到复合物体系分子动力学的轨迹文件；步骤二，由所述轨迹文件数据对应的高维向量信息建立训练集、验证集和测试集，训练所述流模型找到最低自由能构像，即将训练结果中概率密度最高的结构选为最优结构；步骤三，将生成的所述最优结构作为输入文件，进行结合自由能计算。本发明专利技术提出了一种无需精确复合物结构的绝对结合自由能计算方法，解决了精确的复合物结构获得困难这一问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算生物学，具体涉及一种无需精确复合物结构的绝对结合自由能计算方法。

技术介绍

1、现在的新药研发市场主要是靠药物分子与受体蛋白质进行亲和力实验，从而初步确定药物分子的效果。但是简单的虚拟筛选+分子对接过于近似，中靶率较低，现有获得蛋白与分子的复合物结构的常用方法是采用分子对接软件对接，都基于经验打分函数的结构搜索，现有的结合自由能计算方法需要有精确的蛋白质-配体复合物结构，且精确的复合物结构非常难以获得。如申请号为cn201911135246.9的专利公开了一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法，将蛋白质与配体的结构信息转变成一维张量，建立训练集、验证集、测试集，利用训练集训练渐进式神经网络，优化寻找超参数进行预测，计算结合自由能与分子对接结果对照，解决了将蛋白质与配体分子的三维结构转变为计算机易于计算的张量、并输入到渐进式神经网络中进行训练与优化的技术问题，进一步加快了计算速率和预测准确。此类方法采用分子对接软件对接获得复合物结构，且计算结合自由能过程非常依赖初始结构，需要有准确的蛋白质-配体复合物结构，否则计算结果就会比较差。

技术实现思路

1、本专利技术的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

2、本专利技术还有一个目的是提供一种无需精确复合物结构的绝对结合自由能计算方法，其通过采用分子对接软件得到受体蛋白和配体结构的粗糙复合物结构，采用wanglandau模拟方法，以配体和蛋白质的分子结构体系、分子间相互作用的势

3、为了实现根据本专利技术的这些目的和其他优点，提供了一种无需精确复合物结构的绝对结合自由能计算方法，包括：

4、步骤一，基于受体蛋白和配体单独结构，采用分子对接软件得到粗糙复合物结构，采用wanglandau模拟方法，以配体和蛋白质的分子结构体系、分子间相互作用的势能函数以及温度、压力作为主要模拟参数作为输入，进行分子动力学模拟，得到复合物体系分子动力学的轨迹文件；

5、步骤二，基于所述轨迹文件数据所对应的高维向量信息建立训练集、验证集和测试集，采用流模型进行密度估计，以所述轨迹文件中复合物结构的原子坐标作为所述流模型训练过程中的所述训练集，训练所述流模型找到最低自由能构像，即将所述训练过程的训练结果中概率密度最高的结构选为最优结构；

6、步骤三，将生成的所述最优结构作为输入文件，进行结合自由能计算。

7、优选的是，所述步骤一中的所述wanglandau模拟方法过程中，通过对接软件产生受体蛋白和配体的粗糙结构对接结构，并对所述对接结构进行增强采样得到尽可能多的复合物结构。

8、优选的是，所述增强采样方法通过算法减弱蛋白质-配体间的相互作用，所述算法的主要公式为式1；

9、

10、其中，uss表示蛋白质与配体的相互作用的势能，upp代表蛋白质内部的势能，upw代表蛋白质和小分子之间的势能，uww代表小分子的势能，β为调节参数，所述调节参数可在(0.3，0.35，0.4，0.45，0.5，0.55，0.6，0.65，0.7，0.75，0.8，0.85，0.9，0.95，1)范围内进行更新。

11、优选的是，在所述步骤一获得分子动力学轨迹之后，得到traj.dcd文件和参数文件，使用mdanalysis模块，读取轨迹文件，并将所有构象的笛卡尔坐标对齐至参考构象。

12、优选的是，训练所述流模型过程分为两个步骤，步骤一是基于重构损失函数来优化autoencoder，将高维向量降维至2-10维，步骤二是基于最大似然估计的原则，最大化所述训练集数据的概率密度的对数和，根据训练过程中概率密度的负对数和的稳定性确定概率密度估计，从而优化流模型。

13、优选的是，所述步骤二在autoencoder的基础上，额外添加流模型模块，对复合物结构对应的高维向量进行密度估计，根据密度分布寻找最优结构。

14、优选的是，所述流模型模块采用多个affinecoupling层，其将变化前的概率分布x作为输入层x，变化后的概率分布z作为输出层z，计算过程重复8次。

15、优选的是，所述训练模型的过程中采用所述训练集训练，获取集合变量，并计算沿集合变量的自由能变化。

16、本专利技术至少包括以下有益效果：

17、1、采用所述流模型可将复合物结构的复杂的分布转换为具有解析式分布的可逆函数，因此复杂分布的概率密度可有转换后具有解析式分布中的概率密度进行反推，利用概率密度估计，找到出现概率最高的结构，从而获得最优的结构；

18、2、提出了一种无需精确复合物结构的绝对结合自由能计算方法，解决了精确的复合物结构获得困难这一问题。

19、本专利技术的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。

本文档来自技高网...

【技术保护点】

1.无需精确复合物结构的绝对结合自由能计算方法，其特征在于，包括：

2.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述步骤一中的所述WangLandau模拟方法过程中，通过对接软件产生受体蛋白和配体的粗糙结构对接结构，并对所述对接结构进行增强采样得到尽可能多的复合物结构。

3.如权利要求2所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述增强采样方法通过算法减弱蛋白质-配体间的相互作用，所述算法的主要公式为式1；

4.如权利要求3所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，在所述步骤一获得分子动力学轨迹之后，得到traj.dcd文件和参数文件，使用mdanalysis模块，读取轨迹文件，并将所有构象的笛卡尔坐标对齐至参考构象。

5.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，训练所述流模型过程分为两个步骤，步骤一是基于重构损失函数来优化Autoencoder，将高维向量降维至2-10维，步骤二是基于最大似然估计的原则，最大化所述训练集数据

6.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述步骤二在Autoencoder的基础上，额外添加流模型模块，对复合物结构对应的高维向量进行密度估计，根据密度分布寻找最优结构。

7.如权利要求6所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述流模型模块采用多个Affinecoupling层，其将变化前的概率分布x作为输入层x，变化后的概率分布z作为输出层z，计算过程重复8次。

8.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述训练模型的过程中采用所述训练集训练，获取集合变量，并计算沿集合变量的自由能变化。

...

【技术特征摘要】

1.无需精确复合物结构的绝对结合自由能计算方法，其特征在于，包括：

2.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，所述步骤一中的所述wanglandau模拟方法过程中，通过对接软件产生受体蛋白和配体的粗糙结构对接结构，并对所述对接结构进行增强采样得到尽可能多的复合物结构。

5.如权利要求1所述的无需精确复合物结构的绝对结合自由能计算方法，其特征在于，训练所述流模型过程分为两个步骤，...

【专利技术属性】
技术研发人员：付浩浩，卞恒伟，刘煦阳，邵学广，蔡文生，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人