System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略制造技术_技高网

一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略制造技术

技术编号:40255745 阅读:10 留言:0更新日期:2024-02-02 22:48
本发明专利技术公开了一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,深度学习模型对蛋白质与配体分子的结合常数进行预测,通过计算皮尔森系数R得出深度学习模型的预测值与真实值之间相关性;三个深度学习模型组合形成三个异构网络,每个异构网络对应使用基于平均值方法、基于方差的权重分配方法以及基于L1正则化方法这三种权重分配方式所产生的组合模型权重,评估每个异构网络中两个深度学习模型的三种权重分配影响程度;首先计算三个深度学习模型的皮尔森系数,然后计算三个异构网络中三种权重分配方式的皮尔森系数,将异构网络中单个深度学习模型与该异构网络的皮尔森系数对比,采样若干组对比数据,分析异构网络的整体性能。

【技术实现步骤摘要】

本专利技术涉及一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略


技术介绍

1、为了有效改变药物的应用范围,包括提高药物疗效、实现新药再定位、治疗多种不同类型的疾病,了解哪些蛋白质被哪些药物靶向是新药研发的关键步骤。药物-蛋白质相互作用(dpi)的预测对药物设计和开发具有关键作用。

2、药物-蛋白质相互作用预测可以通过物理方法和人工智能来实现。基于物理的方法通常受到精度的限制,因为它们很难处理蛋白质的特异性和精准计算。随着蛋白质结构数据和蛋白质-配体相互作用数据集的增加,以及人工智能的发展,人工智能在药物设计与开发领域引起了越来越多的关注。人工智能的方法可以更好地捕捉复杂、非线性的相互作用关系,从而提供更准确的预测。

3、预测模型根据给定的蛋白质和配体的结合信息以及其他特征,来预测蛋白质与配体之间的结合常数或相关性。异构神经网络不同于常规的神经网络,它可以包括多个子网络或分支来处理数据或特征。预测模型可以采用一维或多维的方式进行学习。一维的表示方法有smiles字符串、ecfp指纹、one-hot编码等,而多维的表示方法有二级结构、三维坐标、图表示等。通过这些分子描述符将蛋白与配体分子的结构转变为了可以用于计算机进行直接处理的数字信息。然后可以就这些数字信息通过机器学习或者深度学习的方法进行数据的挖掘与处理,发现潜在的信息和规律,实现对结合能力的预测。

4、目前,流行的机器学习或者深度学习的方法有人工神经网络(ann)、自编码器(vae)、强化学习(rl)、生成对抗网络(gan)等。预测模型可以采用机器学习(ml)、卷积神经网络(cnn)、循环神经网络(rnn)、图神经网络(gnn)等方法构建模型。

5、hakime等人使用卷积神经网络对蛋白质序列和复合1d表述来预测药物靶标亲和力,通过使用药物和靶标的原始序列信息,获得与其他基线方法相似的性能(hakime;bioinformatics;2018,34)。chen等人提出了transformercpi的新型变压器神经网络,应用于专门的cpi预测的新数据集,该模型提升了化合物-蛋白质相互作用的预测性能(chen;bioinformatics;2020;36)。tri等人使用具有注意机制的新型图神经网络gefa来预测药物靶点亲和力,从结构的方式较好的学习目标表征,从而改善药物结合效应(nguyen;ieee/acm transactions on computational biology and bioinformatics;2021;19)。

6、现有的模型都是采用的单一模型,单一的模型存在几个方面的问题。首先,单一模型可能对超参数的选择和初始化权重值敏感,需要进行大量的实验来调整模型以获得最佳性能。其次,不同的模型在不同数据集上的表现不同,难以判别模型性能。另外,某些单一模型的性能依赖于特定的特征选择,需要对数据做复杂的预处理。常见的用于蛋白质与配体常数预测的预测模型有cnn、rnn和transformer方法,这些模型在可解释性和更高的预测性能方面仍有改进空间。

7、因此,最近提出了集成学习的方法,目前集成方法中使用的是平均值法、堆叠法。平均值法就是将两个模型的预测结果计算平均值。堆叠法(stacking)是对每个模型的输出进行再次的学习。简单求平均值的方法没有充分考虑两个模型的预测性能,当两个模型的预测结果相差较大时,预测性能差的结果反而可能降低最终结果的准确性。堆叠法不是一个线性模型,使得计算成为一个黑箱模型,不利于分析各个模型对结果的贡献。

8、基于语言模型的方法较为出名的是长短期记忆网络(lstm)和非常热门的transformer模型。lstm是一种特殊类型的循环神经网络(rnn),lstm网络可以通过门控机制(如遗忘门和更新门)有效地捕捉序列中的长期依赖性,它是一种适合从序列中学习的方法;而且它所需的参数较少,更容易在资源受限的环境中训练和部署。lstm模型已成功应用于氨基酸序列的功能预测(liu;arxiv;2017)。transformer模型通过自注意力机制实现了并行处理,可以同时处理输入序列中的位置信息,而不需要像lstm逐步处理,由于模型比lstm复杂,需要消耗更多的计算资源。huang等人对transformer作改进,提出了一个分子相互作用变压器(moltrans)来预测药物-靶标相互作用,该方法能够很好的提高dti的预测性能(huang;bioinformatics;2021;37)。lstm和transformer模型的选择,需要考虑任务的复杂性、可用的计算资源和数据量等。这两类网络都能够捕捉到序列中的长期依赖型,而各具特色,一般采用其他模型与这两类模型进行融合。异构神经网络不同于常规的神经网络,它可以包括多个子网络或分支来处理数据或特征,能够进一步推动了药物设计领域的进步。

9、因此,本专利技术选取dnn、lstm和multi-headattention模型,探讨语言模型在蛋白-配体结合常数中的预测性能,其中multi-headattention是transformer模型的重要组块。并根据预测结果,提出一种通过利用异构网络的优势以及如何采用组合策略的方式,进一步提高预测性能。


技术实现思路

1、本专利技术是为了解决上述现有技术存在的问题而提供一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略。

2、本专利技术所采用的技术方案有:

3、一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,包括如下步骤:

4、s1)建立蛋白质与配体分子的数据库;

5、从数据库中获取蛋白质以及与该蛋白质对应结合的配体分子的三维结构,将获得的蛋白质与配体分子分别对应以.pdb文件格式和.mol文件格式存储于建立在本地服务器中的数据库中;

6、s2)将蛋白质与配体分子的结构转变为ecfp指纹,并对数据集分割;

7、将数据库中蛋白质与配体分子的pdb文件和mol文件转换为ecfp指纹,将转换完成后的数据按照8:2的方式划分,占比大的数据集用于训练和验证,占比小的数据集用于测试;用于训练和验证的数据集以9:1的方式划分,分别对应测试集和验证集。

8、s3)构建基于ecfp指纹的蛋白质与配体结合常数预测的深度学习模型;

9、构建三个深度学习模型,利用步骤s2)中的所述训练集分别对每个模型进行训练,然后利用测试集分别对训练后的模型进行验证,直到每个模型达到预设的预测效果;

10、s4)评估单个模型的可靠性;

11、使用每个训练完成的深度学习模型对蛋白质与该蛋白质对应配体分子的结合常数进行预测,通过计算皮尔森系数r得出每个深度学习模型的预测值与数据集真实值之间的相关性;

12、s5)构建异构网络;

13、三个深度学习模型组合形成三个异构网络,每个异构网络对应使用基于平均值方法、基于方差的权重分配方法以本文档来自技高网...

【技术保护点】

1.一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:包括如下步骤:

2.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:所述蛋白与配体分子结合的三维结构从PDBbind数据库中获取。

3.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S2)中,通过RDKit进行指纹转换,将蛋白质与配体分子的pdb和mol文件转换固定长度为1024的ECFP指纹,然后将该蛋白质与配体分子的两个ECFP指纹拼接为一个长度为2048的ECFP指纹。

4.如权利要求3所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S3)中,每个深度学习模型训练过程中,使用拼接后长度为2048的ECFP指纹信息作为对应深度学习模型的输入数据,结合常数作为输出量。

5.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S4)中,皮尔森系数R的计算函数为:

6.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S5)中,基于平均值的方法构建异构网络过程为:

7.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S5)中,基于方差的权重分配方法构建异构网络过程为:

8.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤S5)中,基于L1正则化方法评估异构网络过程为:

...

【技术特征摘要】

1.一种应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:包括如下步骤:

2.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:所述蛋白与配体分子结合的三维结构从pdbbind数据库中获取。

3.如权利要求1所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤s2)中,通过rdkit进行指纹转换,将蛋白质与配体分子的pdb和mol文件转换固定长度为1024的ecfp指纹,然后将该蛋白质与配体分子的两个ecfp指纹拼接为一个长度为2048的ecfp指纹。

4.如权利要求3所述的应用于蛋白与配体结合常数预测的异构神经网络模型优化组合策略,其特征在于:步骤s3)中,每个深度学习模型训练过程中,使...

【专利技术属性】
技术研发人员:谢良旭陆小花孟昊哲许晓军常珊
申请(专利权)人:江苏理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1