一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用技术

技术编号:22566773 阅读:45 留言:0更新日期:2019-11-16 12:46
本发明专利技术公开一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用,先将源域作为输入,进行训练并经过收敛之后推导得出权重矩阵;再将目标域输入到改进工具中作为目标域的初始化权重;将初始化权重和目标域中数据进行微调继续训练至收敛;在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域分子指纹和预测值,输出预测结果的评价指标均方根误差和相关系数;对目标域重复以上步骤进行微调,实现借助源域的权重矩阵帮助目标域构建模型。本发明专利技术提供的小分子药物虚拟筛选方法及其应用能够在已知活性配体样本信息不充分的情况下仍得到有效的虚拟筛选模型,而不需要依赖大量的数据样本。

A virtual screening method of small molecule drugs based on deep transfer learning and its application

The invention discloses a virtual screening method for small molecule drugs based on deep migration learning and its application. Firstly, the source domain is taken as input, trained and the weight matrix is derived after convergence; then, the target domain is input into the improvement tool as the initialization weight of the target domain; the initialization weight and the data in the target domain are fine tuned to continue training to convergence; in the target domain Predict the biological activity value of the interaction between the lead compound and the drug target, get the molecular fingerprint and prediction value of the target domain, output the evaluation index root mean square error and correlation coefficient of the prediction result; repeat the above steps for fine adjustment of the target domain, and realize the help of the weight matrix of the source domain to build the model of the target domain. The virtual screening method for small molecule drugs and its application provided by the invention can obtain an effective virtual screening model even when the information of the known active ligand sample is insufficient, without relying on a large number of data samples.

【技术实现步骤摘要】
一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
本专利技术涉及一种小分子药物筛选方法及其应用,尤其涉及一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用。
技术介绍
小分子药物筛选往往需要通过高通量实验技术到数量巨大的化合物数据库中测定靶点与化合物作用的生物活性值,来筛选先导化合物。然而,实验的方法耗时耗力,更坏的是,往往可得到的化合物数量非常有限,而且并不是所有的药物靶点都适合于高通量筛选实验。因此,基于计算的虚拟筛选,它通过模拟目标靶点与候选药物之间的相互作用,在小分子药物设计中得到了广泛的应用。基于计算的虚拟筛选可以分为两类,即基于受体的虚拟筛选和基于配体的虚拟筛选。基于受体的虚拟筛选通过模拟化合物与靶点的物理学相互作用来进行筛选,但需要知道靶点精确的三维结构,而且计算量很大。基于配体的虚拟筛选无需知道药物靶点三维结构,它利用已知活性的化合物,根据化合物的形状相似性或药效团模型在化合物数据库中进行搜索。由于可用数据的急剧增加、各种化学描述符的产生和机器学习方法的巨大发展,配体虚拟筛选在小分子药物设计中得到了大量的应用。目前靶向已有靶点的小分子药物设计空间已经接近饱和,开发新药需要发现新的能够成药的靶点。然而,新的药物靶标往往已知活性配体样本信息不充分,已有的配体虚拟筛选方法的成功依赖于大量的数据样本,当已知活性配体样本信息不充分时,配体虚拟筛选难于得到好的预测性能。
技术实现思路
专利技术目的:本专利技术提供了一种基于深度迁移学习的小分子药物虚拟筛选方法,用于解决小分子药物虚拟筛选中已知活性配体样本信息不充分而难于得到好用的虚拟筛选模型的问题。技术方案:本专利技术提供一种基于深度迁移学习的小分子药物虚拟筛选方法,包括如下步骤:S1、实验数据样本分为源域与目标域,先将源域作为输入,输入到基于配体的虚拟筛选的通用工具demo_new1中进行训练,经过收敛之后得到训练模型P=Predictor(F,Y);S2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;S3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;S4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;S5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;S6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹Ft和预测值Y,并输出最后预测结果的评价指标均方根误差RMSE和相关系数r2。S7、权重更新:用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新;S8、判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的目标域加权分子指纹Ft。S9、将由上述步骤之后源域达到最优模时的权重矩阵保存,作为目标域第一步的初始化权重,然后目标域重复以上步骤使用fine-tune进行微调,最终得到目标域的模型,即实现了借助源域的权重矩阵帮助目标域构建模型。优选地,S1包括以下步骤:S11、将源域作为输入,输入到基于配体的虚拟筛选的通用工具,即demo_new1中,初始化网络的参数,包括权重矩阵W和源域加权分子指纹Fs;S12、从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;S13、通过Rdkit数据库,计算得到子集S中每一个分子的化学信息数据;S14、提取需要的所有原子、近邻原子信息、化学键信息以及边信息;S15、对分子进行累加操作依次得到每一模块单元的分子指纹fl;S16、对S15中每一模块单元的分子指纹fl进行加权得到源域加权分子指纹Fs;S17、预测得到生物配体的活性:在本专利技术构建的用来预测生物配体的活性的回归预测模型如下式所示:使用的活性值为-log10V,其中V是生物活性值;生物活性生成部分由该预测模型得出;S18、计算目标损失函数:其中,n表示训练数据集中配体分子个数,yi和分别表示分子xi的真实活性值与预测活性值,θ为加权深度学习模型中需要求解的权重参数;通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括两部分,目标损失函数第一部分,即是正则化的二次成本函数,其考虑了估计项目与观测值的偏差;第二部分,即是控制模型复杂性并避免过度拟合的正则化条件。通过计算目标损失函数,来达到模型的最小化预测活性值与真实活性值的均方误差的目的。优选地,S15中所述的每一模块单元的分子指纹f的生成由多个模块单元组成,每个模块单元包含四个层,依次为加和池化层,卷积层,卷积层,加和池化层。进一步地,S15中所述的每一模块单元的分子指纹f包括原子及其相邻原子属性以及键类型;所述原子及其相邻原子的初始原子属性连接原子元素的单热编码,连接的氢原子数量和隐含的价数,以及芳香性指标;所述键类型为单键,双键,三键或者芳香键,键共轭或键成环和键的数量。优选地,S15所述的每一模块单元的分子指纹f还包括相邻原子之间的区别信息,所述区别信息为在每个中心原子的相邻原子和中心原子之间的边信息。。其中,上述边信息术语意思是一些可能有关联但是可能被忽略的信息:所述边信息是指在每个中心原子的相邻原子和中心原子之间的边缘上结合的特征,包括相邻原子的排列顺序信息等。进一步地,所述的S6中预测先导化合物与药物靶标相互作用的生物活性值的步骤为:采用随机森林模型计算生物活性,随机森林是M个决策树的集合,具体包括:随机森林模型产生输出,其中是第m棵树的配体的预测值。优选地,所述随机森林模型的训练程序如下:(1)从n个配体的训练数据中抽取一个bootstrap样本数据集,通过随机抽样和训练数据集的替换生成n个训练样本,得到自举样本数据集;(2)对于每个自举样本数据集,使用以下方案生成树:在每个节点上,选择随机的要素子集中的最佳分组,树生长到最大尺寸直到不再有可能分裂后,停止修剪;(3)重复上述步骤,直到M个这样的树生长出来。具体来说,上述步骤中,随机森林是M个决策树{T_1(x),…,T_M(x)}的集合,其中,x={x_1,…,x_k}是配体指纹的k维向量。随机森林模型产生M个输出结果{Y^_1=T_1(x),…,Y^_M=T_M(x)},其中,Y^_m是第m个树的配体预测值。然后,再组合所有树的输出以产生一个最终预测Y^,即为个体树预测的平均值。给定一组用于训练的n个配体的数据D={(X_1,Y_1),…,(X_n,Y_n)},其中,X_i(i=1,…,n)是指纹向量,Y_i是配体的生物活性值,训练程序如下:从n个配体的训练数据中,绘制一个引导样本数据集,即通过从D中随本文档来自技高网...

【技术保护点】
1.一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,包括如下步骤:/nS1、实验数据样本分为源域与目标域,先将源域作为输入,输入到基于配体的虚拟筛选的通用工具demo_new1中进行训练,经过收敛之后得到训练模型P=Predictor(F,Y);/nS2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;/nS3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;/nS4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;/nS5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;/nS6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹F

【技术特征摘要】
1.一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,包括如下步骤:
S1、实验数据样本分为源域与目标域,先将源域作为输入,输入到基于配体的虚拟筛选的通用工具demo_new1中进行训练,经过收敛之后得到训练模型P=Predictor(F,Y);
S2、通过S1经过收敛之后得到的训练模型,得出权重矩阵W;
S3、将S1中的目标域中的实验数据样本作为输入,输入到我们的基于参数迁移的配体虚拟筛选的改进工具即demo_new2中;
S4、将通过S2得到的权重矩阵W输入到基于参数迁移的配体虚拟筛选的改进工具demo_new2中,作为目标域的初始化权重Wi;
S5、参数迁移的配体虚拟筛选的改进工具demo_new2利用步骤S4得到的初始化权重Wi和目标域中的实验数据样本进行使用fine-tune进行微调,继续训练直至收敛;
S6、在目标域中预测先导化合物与药物靶标相互作用的生物活性值,得到目标域加权分子指纹Ft和预测值Y,并输出最后预测结果的评价指标均方根误差RMSE和相关系数r2。
S7、权重更新:用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新;
S8、判断模型优化是否达到预期的标准,如果没有,返回步骤2继续执行操作;反之,返回生成的新的目标域加权分子指纹Ft。
S9、将由上述步骤之后源域达到最优模时的权重矩阵保存,作为目标域第一步的初始化权重,然后目标域重复以上步骤使用fine-tune进行微调,最终得到目标域的模型,即实现了借助源域的权重矩阵帮助目标域构建模型。


2.根据权利要求1所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于,S1包括以下步骤:
S11、将源域作为输入,输入到基于配体的虚拟筛选的通用工具,即demo_new1中,初始化网络的参数,包括权重矩阵W和源域加权分子指纹Fs;
S12、从给定一组用于训练的n个配体的数据D中随机抽取一批子集S;
S13、通过Rdkit数据库,计算得到子集S中每一个分子的化学信息数据;
S14、提取需要的所有原子、近邻原子信息、化学键信息以及边信息;
S15、对分子进行累加操作依次得到每一模块单元的分子指纹fl;
S16、对S15中每一模块单元的分子指纹fl进行加权得到源域加权分子指纹Fs;
S17、预测得到生物配体的活性:在本发明构建的用来预测生物配体的活性的回归预测模型如下式所示:使用的活性值为-log10V,其中V是生物活性值;生物活性生成部分由该预测模型得出;
S18、计算目标损失函数:其中,n表示训练数据集中配体分子个数,yi和分别表示分子xi的真实活性值与预测活性值,θ为加权深度学习模型中需要求解的权重参数;通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值,以及加权深度学习模型中需要求解的权重参数,进行预测活性值的优化,所述优化包括两部分,目标损失函数第一部分,即是正则化的二次成本函数,其考虑了估计项目与观测值的偏差;第二部分,即是控制模型复杂性并避免过度拟合的正则化条件。


3.根据权利要求2所述的一种基于深度迁移学习的小分子药物虚拟筛选方法,其特征在于:S15中所述的每一模块单元的分子指纹fl的生成由多个...

【专利技术属性】
技术研发人员:吴建盛陈严小虎胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利