基于域自适应和图网络的配体特异性结合残基预测方法技术

技术编号:38321223 阅读:10 留言:0更新日期:2023-07-29 09:03
一种基于域自适应和图网络的配体特异性结合残基预测方法,根据配体的理化性质,将预训练数据集中的配体聚类到多个域后,对每个域使用该域包含的所有配体的数据训练一个关系感知分类器,用于学习该域包含的配体的共享结合模式。在微调阶段,对每种配体,通过配体特异性数据集对预训练的关系感知分类器进行微调,并使用基于域自适应神经网络的预测模块来推断不同域对应的关系感知分类器的权重,并对他们的结果进行加权求和得到最终预测结合概率。们的结果进行加权求和得到最终预测结合概率。们的结果进行加权求和得到最终预测结合概率。

【技术实现步骤摘要】
基于域自适应和图网络的配体特异性结合残基预测方法


[0001]本专利技术涉及的是一种生物工程领域的技术,具体是一种基于域自适应和图网络的配体特异性结合残基预测方法。

技术介绍

[0002]现有从蛋白质结构出发研究蛋白质与配体相互作用的计算方法包括配体通用方法与配体特异性方法。前者为不区分配体类型的结合残基预测方法,收集与多种配体相互作用的蛋白质,构成联合的数据集用于模型设计。当没有特定的目标配体类型,或者特定配体的结合蛋白质数量太少以至于无法训练模型的情况下,配体通用性方法应用广泛。然而,不同的配体与蛋白质的相互作用模式存在多样性,简单的混合所有配体可能会忽略特异性的结合模式从而导致配体通用性模型的效果下降。例如,金属络合对于金属离子和蛋白质相互作用非常重要,相比之下,在蛋白质与核酸的相互作用中,而蛋白质的拓扑特征、水溶性等特性会更加关键。后者通过预测某种配体的特异性结合残基,这些配体与足够多的蛋白质具有相互作用,可以构建配体特异性数据集,可以用于训练配体特异性预测器。之前的配体特异性预测算法,受到配体特异性数据集的影响,往往只能预测几种数据量充足的配体类型,使用范围受限。

技术实现思路

[0003]本专利技术针对现有技术只能应用于已知结合蛋白质数量比较多的配体,无法扩展到小数据量的配体特异性数据集上且模型不具有普适性的不足,提出一种基于域自适应和图网络的配体特异性结合残基预测方法,通过域自适应和图网络的迁移学习模型,可以根据蛋白质结构预测超过1000种配体的特异性结合残基。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于域自适应和图网络迁移学习的配体特异性结合残基预测方法,包括:
[0006]步骤1、采集配体通用性数据集并聚类得到配体域数量N,提取配体通用性数据集中的物理化学特征和蛋白质的残基的图表示。
[0007]所述的配体通用性数据集,包含多种配体与蛋白质相互作用的数据,使用RDKit软件包,根据配体的SMILES编码,对该数据集中的每一对具有相互作用的蛋白质与配体,根据计算得到的200维物理化学特征聚类为N个域。
[0008]所述的物理化学特征,包括:分子质量、电荷、水溶性和分子表面描述符。
[0009]所述的聚类,通过k

means聚类算法从配体特征中分出N个域。
[0010]所述的蛋白质的残基的图表示,通过将配体通用性数据集中的蛋白质的每个残基表示用44维的特征向量表示,并将残基的局部信息表示为图结构,具体为:对于长度为L的蛋白质,使用HHblits,计算L
×
30维的进化信息,使用氢键估计算法(DSSP)计算L
×
14维的二级结构信息,共得到L
×
44维的蛋白质特征;以蛋白质中每个残基的质心位置作为残基的
空间坐标,对每个残基s,根据将其半径15埃以内的所有残基构建图G
s
=(V,E,A),其中:残基为节点V,残基的44维特征向量为节点特征,当两残基之间的欧氏距离小于10埃,则定义它们之间有边E,2维的边特征,即两邻接残基之间的距离和夹角余弦。
[0011]步骤2、构建包含配体编码层、残基编码层、关系感知分类器的残基结合概率预测模型,根据配体域数量N设置关系感知分类器的个数,将物理化学特征和蛋白质的残基的图表示分别输入配体编码层和残基编码层并将得到的结果拼接为配体残基对特征;通过配体通用性数据集中的每个域包含的配体残基对特征来训练各个关系感知分类器。
[0012]所述的配体编码层,根据输入的200维的残基特征x
l
,输出配体表征h
l
=BatchNorm(w2max(0,BatchNorm(w1x
l
+b1))+b2),其中:w1、w2、b1、b2为待优化的模型参数,BatchNorm(
·
)为层归一化层。
[0013]所述的残基编码层,根据输入的图G
s
=(V,E,A),将2维的边特征和44维的节点特征分别通过批归一化层和线性变换层统一到相同的特征维度后,通过5个堆叠的图网络层提取残基的编码并输出残基表征,其中:第k层图网络提取第k层的边(i,j)的特征、节点i的特征和图特征分别为:e
i,jk+1
=GRU(MLP(e
i,jk
||v
ik
||v
jk
),e
i,jk
),),其中:e
i,jk
、v
ik
、u
k
分别为第k层的边(i,j)的特征、节点i的特征和图特征,[x1||x2]为在最后一个维度上拼接x1和x2的特征,为节点i的相邻节点的集合,N
i
为节点i的相邻节点的数量,N
g
为图G
s
中节点的数量,MLP(x)=w2max(0,w1x+b1)+b2为非线性变换层,GRU为循环神经网络层,最后一层图网络层输出的图特征u5,即残基表征。
[0014]所述的训练各个关系感知分类器是指:在每个域中以配体残基对的表征作为输入,训练一个对应的关系感知分类器,即对配体聚类后得到的N个域中的每一个域,将该域内的相互作用的配体与蛋白质数据作为样本进行训练,输入为将编码后的配体表征与残基表征进行拼接得到的配体残基对的表征,输出为二者的结合概率,表征进行拼接得到的配体残基对的表征,输出为二者的结合概率,其中:h
s,l
为拼接后的配体残基对特征。
[0015]步骤3、采用配体特异性数据集,重复步骤1中的物理化学特征和蛋白质的残基的图表示的提取,并对步骤2得到的残基结合概率预测模型进行相同的训练,实现模型微调优化。
[0016]步骤4、在在线阶段,将待测数据的配体残基对特征输入微调优化后的残基结合概率预测模型得到N个域对应的分类输出结果,同时将待测数据的配体残基对特征输入随机初始化的域预测层,得到对应的域从属概率作为权重,用于对分类输出结果进行加权求和,从而得到最终的残基对特异性配体的预测的结合概率。
[0017]所述的域从属概率,通过以下方式得到:根据配体残基对所述的域从属概率,通过以下方式得到:根据配体残基对其中:表示对特异性配体t,配体l与残基s通过配体编码层、残基编码层以及域预测层得到的配体与残基对的表征。
[0018]所述的加权求和,具体为:其中:为配体l与残基s属于域n的域从属概率,表示配体l与残基s通过域n对应的关系感知分类器得到的预测结果。技术效果
[0019]本专利技术通过与域自适应的迁移方法预测小样本的配体的特异性结合残基,实现在小样本的配体特异性数据集上的结合残基预测。
附图说明
[0020]图1为本专利技术流程图;
[0021]图2为配体编码层示意图;
[0022]图3为残基编码层示意图;
[0023]图4为关系感知分类器示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于域自适应和图网络的配体特异性结合残基预测方法,其特征在于,包括:步骤1、采集配体通用性数据集并聚类得到配体域数量N,提取配体通用性数据集中的物理化学特征和蛋白质的残基的图表示;步骤2、构建包含配体编码层、残基编码层、关系感知分类器的残基结合概率预测模型,根据配体域数量N设置关系感知分类器的个数,将物理化学特征和蛋白质的残基的图表示分别输入配体编码层和残基编码层并将得到的结果拼接为配体残基对特征;通过配体通用性数据集中的每个域包含的配体残基对特征来训练各个关系感知分类器;步骤3、采用配体特异性数据集,重复步骤1中的物理化学特征和蛋白质的残基的图表示的提取,并对步骤2得到的残基结合概率预测模型进行相同的训练,实现模型微调优化;步骤4、在在线阶段,将待测数据的配体残基对特征输入微调优化后的残基结合概率预测模型得到N个域对应的分类输出结果,同时将待测数据的配体残基对特征输入随机初始化的域预测层,得到对应的域从属概率作为权重,用于对分类输出结果进行加权求和,从而得到最终的残基对特异性配体的预测的结合概率。2.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法,其特征是,所述的配体通用性数据集,包含多种配体与蛋白质相互作用的数据,使用RDKit软件包,根据配体的SMILES编码,对该数据集中的每一对具有相互作用的蛋白质与配体,根据计算得到的200维物理化学特征聚类为N个域;所述的物理化学特征,包括:分子质量、电荷、水溶性和分子表面描述符。3.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法,其特征是,所述的蛋白质的残基的图表示,通过将配体通用性数据集中的蛋白质的每个残基表示用44维的特征向量表示,并将残基的局部信息表示为图结构,具体为:对于长度为L的蛋白质,使用HHblits,计算L
×
30维的进化信息,使用氢键估计算法(DSSP)计算L
×
14维的二级结构信息,共得到L
×
44维的蛋白质特征;以蛋白质中每个残基的质心位置作为残基的空间坐标,对每个残基s,根据将其半径15埃以内的所有残基构建图G
s
=(V,E,A),其中:残基为节点V,残基的44维特征向量为节点特征,当两残基之间的欧氏距离小于10埃,则定义它们之间有边E,2维的边特征,即两邻接残基之间的距离和夹角余弦。4.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法,其特征是,所述的配体编码层,根据输入的200维的残基特征x
l
,输出配体表征h
l
=BatchNorm(w2max(0,BatchNorm(w1x
l
+b1))+b2),其中:w1、w2、b1、b2为待优化的模型参数,BatchNorm(
·
)为层归一化层。5.根据权利要求1所述的基于域自适应和图网络的配体特异性结合残基预测方法,其特征是,所述的残基编码层,根据输入的图G
s
=(V,E,A),将2维的边特征和44维的节点特征分别通过批归一化层和线性变换层统一到相同的特征维度后,通过5个堆叠的图网络层提取...

【专利技术属性】
技术研发人员:夏莹夏春秋潘小勇沈红斌
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1