本发明专利技术提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统,包括:使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。本发明专利技术直接从多序列联配学习残基间距离,因此可以提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。
【技术实现步骤摘要】
直接利用蛋白质多序列联配信息构建蛋白质结构的方法
本专利技术属于生物和计算机
,并特别涉及一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统。
技术介绍
蛋白质结构预测系统(例如AlphaFold,RaptorX-Contact和trRosetta)最近取得的飞跃,其中的核心技术之一是残基间接触或距离的预测。近期的进展表明:准确的残基间距离可用于为构建高精度的蛋白质三级结构。现有的残基间距离预测都是基于残基间的“共进化”现象,即:在蛋白质进化过程中,有相互作用的两个残基中的一个残基发生变异时,另一个残基也要发生相应的变异,以维持相互作用,进而维持整体空间结构以及生物学功能。基于上述生物学观察,研究者提出了多种统计模型和算法以预测残基间的相互作用,并进一步预测残基间距离。现有的残基间相互作用预测方法,大多使用直接关联性分析技术:直接关联性分析尝试建模和测量两个氨基酸之间直接关联性的强度,并排除间接关联性。虽然直接关联性分析很有效,但它具有如下两方面的不足:(1)直接关联性分析不是直接使用目标蛋白质的多序列联配(Multiplesequencealignment,MSA),而是基于其进一步处理后的数据(例如协方差),从而造成多序列联配中原始信息的丢失;(2)直接关联性分析基于的前提是:残基间协方差阵包含残基间直接关联关系;然而,此前提并不总是成立。如图1所示,两个蛋白的多序列联配非常不同;从条件分布可以看出,第一个多序列联配中残基1和2之间的直接关联性更强。然而,从上述两个多序列联配计算出的协方差矩阵完全相同;这意味着基于协方差矩阵无法区分这两个蛋白质。实际上,由于任意两个位置上的残基具有相同的联合分布,导致二体统计量都无法区分这两个多序列联配。计算两个残基的条件分布是推断直接相关性的一条可行途径,但由于样本空间大且数据不足,导致难以实施。
技术实现思路
本专利技术的目的是解决上述现有技术的间接利用多序列联配导致信息丢失的缺陷,提出了一种直接从多序列联配学习残基间距离的方法及系统。本专利技术的核心和重点是基于蛋白质多序列联配信息,先预测蛋白质残基间距离,最终预测蛋白质的三级结构。本专利技术由于直接从多序列联配学习残基间距离的神经网络模型CopulaNet和系统ProFOLD;因此可以显著提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。针对现有技术的不足,本专利技术提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中包括:步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该步骤1包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该步骤2包括:对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:h(i,j)=CONCAT{f(i),f(j),g(i,j)}其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。本申请还提出了一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中包括:第一编码器,用于为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;聚合器,用于根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;第一编码器,用于根据所有残基对的全局上下文,细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该聚合器包括:对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:h(i,j)=CONCAT{f(i),f(j),g(i,j)}其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。由以上方案可知,本专利技术的优点在于:在第13届国际蛋白质结构预测竞赛(Criticalassessmentofproteinstructureprediction,CASP)所使用的数据集CASP13上将ProFOLD与包括AlphaFold和trRosetta等最新技术进行了比较。为了公平起见,本专利技术使用相同的多序列联配重现了trRosetta的结果。从CASP13下载了AlphaFold的预测结果任务,并以与ProFOLD和trRosetta相同的方式进行评估。图4显示了CASP13数据集的总体性能。在所有104个蛋白中,ProFOLD的平均得分达到0.742,高于AlphaFold(A7D)的0.699。无模板类别的蛋白通常被认为比有模板的蛋白更难预测。如图3a所示,在31个无模板类别的蛋白上,ProFOLD的平均得分为0.65本文档来自技高网...
【技术保护点】
1.一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,包括:/n步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;/n步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。/n
【技术特征摘要】
1.一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,包括:
步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。
2.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,该第一编码器为一维残差网络,该第二编码器为二维残差网络。
3.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,该步骤1包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。
4.如权利要求3所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,该步骤2包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。
5.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
【专利技术属性】
技术研发人员:卜东波,鞠富松,朱建伟,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。