基于域自适应和图网络的配体特异性结合残基预测方法技术

技术编号：38321223 阅读：10 留言：0更新日期：2023-07-29 09:03

一种基于域自适应和图网络的配体特异性结合残基预测方法，根据配体的理化性质，将预训练数据集中的配体聚类到多个域后，对每个域使用该域包含的所有配体的数据训练一个关系感知分类器，用于学习该域包含的配体的共享结合模式。在微调阶段，对每种配体，通过配体特异性数据集对预训练的关系感知分类器进行微调，并使用基于域自适应神经网络的预测模块来推断不同域对应的关系感知分类器的权重，并对他们的结果进行加权求和得到最终预测结合概率。们的结果进行加权求和得到最终预测结合概率。们的结果进行加权求和得到最终预测结合概率。

全部详细技术资料下载

【技术实现步骤摘要】
基于域自适应和图网络的配体特异性结合残基预测方法

[0001]本专利技术涉及的是一种生物工程领域的技术，具体是一种基于域自适应和图网络的配体特异性结合残基预测方法。

技术介绍

[0002]现有从蛋白质结构出发研究蛋白质与配体相互作用的计算方法包括配体通用方法与配体特异性方法。前者为不区分配体类型的结合残基预测方法，收集与多种配体相互作用的蛋白质，构成联合的数据集用于模型设计。当没有特定的目标配体类型，或者特定配体的结合蛋白质数量太少以至于无法训练模型的情况下，配体通用性方法应用广泛。然而，不同的配体与蛋白质的相互作用模式存在多样性，简单的混合所有配体可能会忽略特异性的结合模式从而导致配体通用性模型的效果下降。例如，金属络合对于金属离子和蛋白质相互作用非常重要，相比之下，在蛋白质与核酸的相互作用中，而蛋白质的拓扑特征、水溶性等特性会更加关键。后者通过预测某种配体的特异性结合残基，这些配体与足够多的蛋白质具有相互作用，可以构建配体特异性数据集，可以用于训练配体特异性预测器。之前的配体特异性预测算法，受到配体特异性数据集的影响，往往只能预测几种数据量充足的配体类型，使用范围受限。

技术实现思路

[0003]本专利技术针对现有技术只能应用于已知结合蛋白质数量比较多的配体，无法扩展到小数据量的配体特异性数据集上且模型不具有普适性的不足，提出一种基于域自适应和图网络的配体特异性结合残基预测方法，通过域自适应和图网络的迁移学习模型，可以根据蛋白质结构预测超过1000种配体的特异性结合残基。
[0004]本专

【技术保护点】

【技术特征摘要】
1.一种基于域自适应和图网络的配体特异性结合残基预测方法，其特征在于，包括：步骤1、采集配体通用性数据集并聚类得到配体域数量N，提取配体通用性数据集中的物理化学特征和蛋白质的残基的图表示；步骤2、构建包含配体编码层、残基编码层、关系感知分类器的残基结合概率预测模型，根据配体域数量N设置关系感知分类器的个数，将物理化学特征和蛋白质的残基的图表示分别输入配体编码层和残基编码层并将得到的结果拼接为配体残基对特征；通过配体通用性数据集中的每个域包含的配体残基对特征来训练各个关系感知分类器；步骤3、采用配体特异性数据集，重复步骤1中的物理化学特征和蛋白质的残基的图表示的提取，并对步骤2得到的残基结合概率预测模型进行相同的训练，实现模型微调优化；步骤4、在在线阶段，将待测数据的配体残基对特征输入微调优化后的残基结合概率预测模型得到N个域对应的分类输出结果，同时将待测数据的配体残基对特征输入随机初始化的域预测层，得到对应的域从属概率作为权重，用于对分类输出结果进行加权求和，从而得到最终的残基对特异性配体的预测的结合概率。2.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法，其特征是，所述的配体通用性数据集，包含多种配体与蛋白质相互作用的数据，使用RDKit软件包，根据配体的SMILES编码，对该数据集中的每一对具有相互作用的蛋白质与配体，根据计算得到的200维物理化学特征聚类为N个域；所述的物理化学特征，包括：分子质量、电荷、水溶性和分子表面描述符。3.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法，其特征是，所述的蛋白质的残基的图表示，通过将配体通用性数据集中的蛋白质的每个残基表示用44维的特征向量表示，并将残基的局部信息表示为图结构，具体为：对于长度为L的蛋白质，使用HHblits，计算L
×
30维的进化信息，使用氢键估计算法(DSSP)计算L
×
14维的二级结构信息，共得到L
×
44维的蛋白质特征；以蛋白质中每个残基的质心位置作为残基的空间坐标，对每个残基s，根据将其半径15埃以内的所有残基构建图G
s
＝(V，E，A)，其中：残基为节点V，残基的44维特征向量为节点特征，当两残基之间的欧氏距离小于10埃，则定义它们之间有边E，2维的边特征，即两邻接残基之间的距离和夹角余弦。4.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法，其特征是，所述的配体编码层，根据输入的200维的残基特征x
l
，输出配体表征h
l
＝BatchNorm(w2max(0，BatchNorm(w1x
l
+b1))+b2)，其中：w1、w2、b1、b2为待优化的模型参数，BatchNorm(
·
)为层归一化层。5.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法，其特征是，所述的残基编码层，根据输入的图G
s
＝(V，E，A)，将2维的边特征和44维的节点特征分别通过批归一化层和线性变换层统一到相同的特征维度后，通过5个堆叠的图网络层提取...

【专利技术属性】
技术研发人员：夏莹，夏春秋，潘小勇，沈红斌，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人