一种基于深度学习的蛋白质模型质量评估方法技术

技术编号:33560106 阅读:12 留言:0更新日期:2022-05-26 22:57
一种基于深度学习的蛋白质模型质量评估方法,首先在PISCES服务器中筛选出设定蛋白质长度、最大序列冗余度和分辨率的蛋白质索引,然后从PDB库中下载相应蛋白质结构信息;使用RosettaCM比较建模、天然结构的随机位置插入片段进行扰动、trRosetta进行深度学习指导折叠三种方法生成每个蛋白在不同模型质量分布上的诱饵结构,构建数据集;对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维、二维三维特征信息;再经过一系列三维卷积层生成的输出张量将被展平,并与其它一维特征串联后进行垂直和水平条带化,与其它二维特征结合在一起,得到141

【技术实现步骤摘要】
一种基于深度学习的蛋白质模型质量评估方法


[0001]本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度学习的蛋白质模型质量评估方法。

技术介绍

[0002]蛋白质在几乎所有的生物过程中是普遍存在的。确定它们的结构和功能有助于理解并潜在地控制这些过程。然而,尽管蛋白质序列的测定现在是一个常规的程序,但利用这些信息来提取所研究系统的相关功能知识往往是非常困难的。事实上,蛋白质的功能依赖于其化学性质和机械性质的结合,这是由其结构决定的。因此,从其序列中鉴定蛋白质结构是非常重要的,尽管是一项艰巨的任务。实验结构识别并非在所有情况下都可行,并且通常非常繁琐且昂贵。因此,过去出现了试图从其序列预测蛋白质结构的计算方法。这些方法大多数都将蛋白质构象的采样步骤与模型质量评估步骤结合在一起,前者产生蛋白质构象,而后者对这些构象评分以选择与天然结构尽可能接近的蛋白质构象。
[0003]蛋白质模型质量评估是结构生物信息学中一个重要而又亟待解决的问题。目前,蛋白质模型的评分有三类。第一种是仅使用实际模型信息的单模型方法,如进化信息、残基环境兼容性、来自物理或基于知识的统计势,或不同结构特征的组合。第二类是共识方法,主要使用多个模型或模板比对的共识,对给定序列选择最可能的模型。最后,也有混合方法,结合单模型和共识方法。虽然共识方法擅长在预测与真实质量度量之间实现高度相关性,但在困难情况(缺乏共识)或模型非常相似的简单情况下,共识方法常常无法选择最佳的可能模型。而单模型方法不需要模型集合,即使没有共识也可以挑选出好的模型,也只有单模型方法才可以用于构象采样并作为细化指导,以进一步提高性能。
[0004]目前用于单模型质量评估的最佳方法通常结合了的不同方法,每种方法基于不同输入特征。然后,使用机器学习算法对预测模型进行训练。最近,随着卷积神经网络的发展,深度学习大量运用在生物信息领域,这促使我们将三维卷积网络应用到蛋白质模型的模型质量评估的问题上。
[0005]综上所述,已有的蛋白质模型质量评估方法在评估蛋白质模型质量的准确性和计算效率上还不够完善,从而导致无法可靠地得到蛋白质模型质量,进而指导蛋白质细化,故而需要做出改进。

技术实现思路

[0006]针对以上技术问题,为了克服现有技术的不足,本专利技术提出了一种基于深度学习的蛋白质模型质量评估方法,不仅提高了蛋白质模型质量评估的准确性,而且提高了计算效率。
[0007]本专利技术解决其技术问题所采用的技术方案是:
[0008]一种基于深度学习的蛋白质模型质量评估方法,所述方法包括以下步骤:
[0009]1)在PISCES服务器中筛选出设定蛋白质长度、最大序列冗余度和分辨率的蛋白质
索引,然后从PDB库中下载相应蛋白质结构信息,得到包含M个蛋白质结构信息;
[0010]2)使用三种方法生成步骤1)中每个蛋白在不同模型质量分布上的n个诱饵结构;首先使用RosettaCM对每个天然结构进行不同精度模板的比较建模,每个天然结构得到n1个诱饵结构;然后使用RosettaCM在每个天然结构的随机位置插入片段进行扰动,得到每个天然结构得到n2个诱饵结构;最后使用trRosetta进行深度学习指导折叠,得到每个天然结构得到n3个诱饵结构,n=n1+n2+n3;
[0011]3)将步骤2)中得到的每个蛋白质及其诱饵结构数据集,其中选出m1个蛋白质及其诱饵结构作为训练集,m2个蛋白质及其诱饵结构作为验证集,剩余m3个蛋白质及其诱饵结构作为测试集,M=m1+m2+m3;
[0012]4)对数据集中的每一个蛋白质天然结构及其诱饵结构,制作标签数据,过程如下:
[0013]4.1)对数据集中的每一个蛋白质诱饵结构,根据每个残基中C
β
原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含C
β
原子,以C
α
原子代替;如果距离小于则表示为1,反之为0,并构建残基对mask矩阵;
[0014]4.2)对数据集中的每一个蛋白质天然结构及其诱饵结构,根据每个残基中C
β
[0015]原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含C
β
原子,以C
α
原子代替;然后对每个蛋白质的诱饵结构的每对残基
[0016]距离和其天然结构对应的残基对距离计算距离误差,计算公式如下:
[0017]err
ij
=d
decoyij

d
nativeij
[0018]其中,d
decoyij
是诱饵结构的残基对距离,d
nativeij
是对应天然结构对应残基对距离,根据距离误差信息划分m个距离误差区间,对m个区间标号;残基对距离误差落入哪个区间取对应的标号作为标签值;
[0019]5)对数据集中的每一个蛋白质天然结构及其诱饵结构提取三维特征信息,用体素化方式表示每个残基的三维特征信息,得到24
×
24
×
24
×
167
×
L的特征图,过程如下:
[0020]5.1)为当前残基建立三维笛卡尔坐标系,轴方向与从前一个残基的C原子(C
n
‑1)指向当前残基的N原子(N
n
)的方向重合,轴垂直于轴并使当前残基的C
α
原子位于半平面轴由的方向定义;
[0021]5.2)以当前残基的C
α
原子为几何中心及步骤5.1)建立的三维笛卡尔坐标系方向构建一个边长为的立方体M,搜索其在该立方体内的所有邻域原子,根据原子的原始位置坐标映射到步骤5.1)建立的三维坐标系,得到其当前的位置坐标;
[0022]5.3)将步骤5.2)中构建的立方体平均分成24
×
24
×
24个边长为的小立方体;并为每个小立方体的中心填充值v,计算公式如下:
[0023][0024]其中,N
atoms
表示M内的原子数量,表示当前小立方体中心位置的坐标,表示M内第i个原子的位置坐标,t
i
表示167维的单位向量,其唯一的非零分量对应于第i个原子的类型;167种原子类型如图1所示;
[0025]6)对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维特征信息,得到11
×
L的特征图,过程如下:
[0026]6.1)使用pyRosetta计算数据集中每个目标蛋白质的诱饵结构的4种残基能量项(omega,p_aa_pp,fa_dun,rama_prepro),得到4
×
L的特征图;
[0027]6.2)使用pyRosetta计算每个目标蛋白的每个残基对应的二级结构(E、L、H、

),得到4
×
L的特征图;
[0028]6本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的蛋白质模型质量评估方法,其特征在于,所述方法包括以下步骤:1)在PISCES服务器中筛选出设定蛋白质长度、最大序列冗余度和分辨率的蛋白质索引,然后从PDB库中下载相应蛋白质结构信息,得到包含M个蛋白质结构信息;2)使用三种方法生成步骤1)中每个蛋白在不同模型质量分布上的n个诱饵结构;首先使用RosettaCM对每个天然结构进行不同精度模板的比较建模,每个天然结构得到n1个诱饵结构;然后使用RosettaCM在每个天然结构的随机位置插入片段进行扰动,得到每个天然结构得到n2个诱饵结构;最后使用trRosetta进行深度学习指导折叠,得到每个天然结构得到n3个诱饵结构,n=n1+n2+n3;3)将步骤2)中得到的每个蛋白质及其诱饵结构数据集,其中选出m1个蛋白质及其诱饵结构作为训练集,m2个蛋白质及其诱饵结构作为验证集,剩余m3个蛋白质及其诱饵结构作为测试集,M=m1+m2+m3;4)对数据集中的每一个蛋白质天然结构及其诱饵结构,制作标签数据,过程如下:4.1)对数据集中的每一个蛋白质诱饵结构,根据每个残基中C
β
原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含C
β
原子,以C
α
原子代替;如果距离小于则表示为1,反之为0,并构建残基对mask矩阵;4.2)对数据集中的每一个蛋白质天然结构及其诱饵结构,根据每个残基中C
β
原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含C
β
原子,以C
α
原子代替;然后对每个蛋白质的诱饵结构的每对残基距离和其天然结构对应的残基对距离计算距离误差,计算公式如下:err
ij
=d
decoyij

d
nativeij
其中,d
decoyij
是诱饵结构的残基对距离,d
nativeij
是对应天然结构对应残基对距离。根据距离误差信息划分m个距离误差区间,对这m个区间标号;残基对距离误差落入哪个区间取对应的标号作为标签值;5)对数据集中的每一个蛋白质天然结构及其诱饵结构提取三维特征信息,用体素化方式表示每个残基的三维特征信息,得到24
×
24
×
24
×
167
×
L的特征图,过程如下:5.1)为当前残基建立三维笛卡尔坐标系,轴方向与从前一个残基的C原子C
n
‑1指向当前残基的N原子N
n
的方向重合,轴垂直于轴并使当前残基的C
α
原子位于半平面y>0,轴由的方向定义;5.2)以当前残基的C
α
原子为几何中心及步骤5.1)建立的三维笛卡尔坐标系方向构建一个边长为的立方体M,搜索其在该立方体内的所有邻域原子,根据原子的原始位置坐标映射到步骤5.1)建立的三维坐标系,得到其当前的位置坐标;5.3)将步骤5.2)中构建的立方体平均分成24
×
24
×
24个边长为的小立方体;并为每个小立方体的中心填充值v,计算公式如下:
其中,N
atoms
表示M内的原子数量,表示当前小立方体中心位置的坐标,表示M内第i个原子的位置坐标,t
i
表示167维的单位向量,其唯一的非零分量对应于第i个原子的类型;6)对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维特征信息,得到11
×
L的特征图,过程如下:6.1)使用pyRosetta计算数据集中每个目标蛋白质的诱饵结构的4种残基能量项(omega,p_aa_pp,fa_dun,rama_prepro),得到4
×
L的特征图;6.2)使用pyRosetta计算每个目标蛋白的每个残基对应的二级结构(E、L、H、

),得到4
×
L的特征图;6.3)根据每个目标蛋白质的诱饵结构的LSR特征,得到3
×
L的特征图,计算过程如下:6.3.1)对于每个诱饵结构,计算每对残基之间的欧氏距离,提取与残基Q
i
的距离在内的所有残基的距离之和的平均值μ1,并记下与残基Q
i
的距离在内的最远残基Q
i1
;6.3.2)提取与残基Q
i1
的距离在内的所有残基的距离之和的平均值μ2,并记下与残基Q
i1
的距离在内的最远残基Q
i2
;6.3.3)提取与残基Q
i2
的距离在内的所有残基的距离之和的平均值μ3;对每个诱饵结构的每个残基提取了[μ1,μ2,μ3]的一维特征,对于整个诱饵结构,提取了3
×...

【专利技术属性】
技术研发人员:张贵军郭赛赛刘俊杨涛冯琼琼余众泽周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1