一种基于差分进化的蛋白质二聚体结构预测方法技术

技术编号:20684314 阅读:17 留言:0更新日期:2019-03-27 20:01
一种基于差分进化的蛋白质二聚体结构预测方法,首先,使用I‑TASSER服务器分别预测出蛋白质二聚体的两条链的结构信息,提升了蛋白质每条单链的空间结构的预测精度;然后,通过种群个体的设计将原先的蛋白质二聚体结构预测问题转换成搜索最优个体的优化问题,降低了计算代价;最后,通过使用差分进化算法搜索最优个体,提升了蛋白质二聚体结构的预测精度。本发明专利技术提供一种计算代价低、搜索效率高的基于差分进化的蛋白质二聚体结构预测方法。

【技术实现步骤摘要】
一种基于差分进化的蛋白质二聚体结构预测方法
本专利技术涉及生物信息学、智能优化及计算机应用领域,具体而言涉及一种基于差分进化的蛋白质二聚体结构预测方法。
技术介绍
蛋白质在生命活动中是普遍存在且不可或缺的,它在生物体内承担了多种多样的生物学功能,如酶蛋白的催化作用、膜蛋白的运输作用以及抗体蛋白的免疫作用等。为了完成这些复杂的生物学功能,蛋白质往往需要与其他蛋白质产生相互作用,形成以非共价键相结合的高分子配合物。其中,由两个蛋白质分子组合而成的高分子配合物称为蛋白质双聚体。研究蛋白质双聚体的空间结构,不仅对了解蛋白质双聚体的生物学功能和理解蛋白质之间相互作用的原理与机制至关重要,而且对新蛋白二聚体的设计、蛋白质之间相互作用建模、药物标靶蛋白的设计具有十分重要的指导意义。测定蛋白质二聚体空间结构的实验方法主要包括:X射线晶体衍射、多维核磁共振(NMR)以及冷冻电镜技术(Cryo-EM)。X射线晶体衍射是测定蛋白质二聚体空间结构较为有效的方法,所达到的精度是具有很高的可靠性,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前常用于测定残基数目较少的蛋白质;Cryo-EM是最新的测定蛋白质二聚体空间结构的实验方法,测定的蛋白质二聚体空间结构准确性高,但其所需要的设备仪器价格高昂、维护成本较高。因此,如何以计算机为工具,运用适当的预测算法,从氨基酸序列出发直接预测蛋白质二聚体的空间结构,成为当前生物信息学中一种重要的研究课题。目前,专门从氨基酸序列出发直接预测蛋白质二聚体空间结构的计算方法极为缺乏。大多数预测蛋白质二聚体空间结构的计算方法都是从已知空间结构信息的两个蛋白质单链出发的,此类方法有Z-DOCK(BrainG.Pierce,etal.ZDOCKserver:interactivedockingpredictionofprotein–proteincomplexesandsymmetricmultimers[J].Bioinformatics,2014,30(12):1771-1773.即:布瑞恩.G.皮尔斯等.ZDOC服务器:蛋白质-蛋白质复合物和对称多聚体的交互式对接预测[J].生物信息学,2014,30(12):1771-1773.)与ClusPro(StephenR.Comeau,etal.ClusPro:anautomateddockinganddiscriminationmethodforthepredictionofproteincomplexes[J].Bioinformatics,2004,20(1):45-50.即:史蒂芬·R·科莫等.ClusPro:蛋白质复合物预测的自动对接和判别方法[J].生物信息学,2004,20(1):45-50.)等。其中,Z-DOCK预测一个蛋白质二聚体的空间结构平均需要11.5分钟,这对于直接从蛋白质单链结构出发的预测方法来说,并不能满足实际的需求;ClusPro预测的蛋白质二聚体空间结构与实验测定的空间结构之间的均方根偏差在左右,距离实际应该还有较大的差距。综上所述,现存的蛋白质二聚体空间结构预测方法在计算代价、预测精度方面,距离实际应用的要求还有很大差距,迫切地需要改进。
技术实现思路
为了克服现有的蛋白质二聚体结构预测方法在计算代价、预测精确性方面的不足,本专利技术提出一种计算代价低、预测精确性高的基于差分进化算法的蛋白质二聚体结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于差分进化的蛋白质二聚体结构预测方法,所述方法包括以下步骤:1)输入待预测蛋白质二聚体中的两条链的序列信息,分别记作Chain1与Chain2;2)对于输入的序列信息Chain1与Chain2,使用I-TASSER服务器(http://zhanglab.ccmb.med.umich.edu/I-TASSER/)预测出对应的三维空间结构信息,分别记作T1与T2;3)计算T1与T2的中心点坐标,分别记作o1与o2:其中,N1与N2分别表示T1与T2中含有的氨基酸数目,与分别表示T1与T2中的第i个氨基酸的中心碳原子Cα的坐标;4)计算T1中每个氨基酸的Cα的坐标与o1之间的欧氏距离并在所有氨基酸对应的计算得到后,选择最大的记作5)计算T2中每个氨基酸的Cα的坐标与o2之间的欧氏距离并在所有氨基酸对应的计算得到后,选择最大的记作6)参数设置:设置种群规模NP,突变因子F,交叉概率CR,最大迭代次数Gmax,初始化迭代次数G=0;7)种群初始化:随机生成初始化种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P中的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1与si,2的取值范围为0到1,si,3的取值范围为0到si,4、si,5与si,6的取值范围为0到2π;8)对于种群中的每个个体Si,根据如下方式组装T1与T2,并计算该个体的得分score(Si):8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个三维空间旋转矩阵R:8.2)固定T1,将T2中的所有原子坐标信息,根据旋转矩阵R进行旋转,将旋转后的T2记作8.3)根据Si中的前三个元素与o1,计算出一个新的三维空间点onew:其中ζ=1-2·si,1,T表示向量的转置;8.4)固定T1,将平移,使得平移后的的中心点与onew重合,记平移后的为此时,T1与形成的复合物被看作为个体Si对应的蛋白质二聚体空间构象,记作8.5)在中,根据T1与之间的交互残基对数目ninter与冲突残基对的数目nclash,计算得分score(Si):score(Si)=ninter-nclash其中,当分别来自T1与的残基AA1,k与AA2,l的Cα原子之间的欧氏距离处于区间[dlow,dhigh]时,交互残基对数目ninter加1,当分别来自T1与的残基AA1,k与AA2,l的Cα原子之间的欧氏距离处于区间[0,dlow)时,冲突残基对数目nclash加1;9)根据差分进化算法,对种群P中的每个个体Si,i∈{1,2,…,NP}作如下处理:9.1)从当前种群中P随机选择三个不同的个体Sa、Sb与Sc,其中a≠b≠c≠i,根据如下等式生成一个突变个体Smutant:Smutant=Sa+F·(Sb-Sc)9.2)将Si中的元素信息复制到交叉个体Scross中,再在Scross的6个元素中随机选择一个元素scross,j,使用Smutant中对应的元素smutant,j替换,最后,对于Scross中的每一个元素,使用随机生成的0到1之间的随机数R来控制是否使用Smutant中对应的元素来替换:若R<CR,则替换,否则不替换;9.3)根据步骤8),分别计算Scross与Si对应的得分score(Scross)与score(Si);9.4)如果score(Scross)>score(Si),则使用Scross替换种群P中的Si,否则Si保留在种群P中;10)G=G+1,如果G>Gmax,则根据当前种群P中得分最本文档来自技高网
...

【技术保护点】
1.一种基于差分进化的蛋白质二聚体结构预测方法,其特征在于,所述预测方法包括以下步骤:1)输入待预测蛋白质二聚体中的两条链的序列信息,分别记作Chain1与Chain2;2)对于输入的序列信息Chain1与Chain2,使用I‑TASSER服务器预测出对应的三维空间结构信息,分别记作T1与T2;3)计算T1与T2的中心点坐标,分别记作o1与o2:

【技术特征摘要】
1.一种基于差分进化的蛋白质二聚体结构预测方法,其特征在于,所述预测方法包括以下步骤:1)输入待预测蛋白质二聚体中的两条链的序列信息,分别记作Chain1与Chain2;2)对于输入的序列信息Chain1与Chain2,使用I-TASSER服务器预测出对应的三维空间结构信息,分别记作T1与T2;3)计算T1与T2的中心点坐标,分别记作o1与o2:其中,N1与N2分别表示T1与T2中含有的氨基酸数目,与分别表示T1与T2中的第i个氨基酸的中心碳原子Cα的坐标;4)计算T1中每个氨基酸的Cα的坐标与o1之间的欧氏距离并在所有氨基酸对应的计算得到后,选择最大的记作5)计算T2中每个氨基酸的Cα的坐标与o2之间的欧氏距离并在所有氨基酸对应的计算得到后,选择最大的记作6)参数设置:设置种群规模NP,突变因子F,交叉概率CR,最大迭代次数Gmax,初始化迭代次数G=0;7)种群初始化:随机生成初始化种群P={S1,S2,...,Si,...,SNP},Si=(si,1,si,2,si,3,si,4,si,5,si,6)为种群P中的第i个个体,si,1、si,2、si,3、si,4、si,5与si,6为Si的6个元素,其中si,1与si,2的取值范围为0到1,si,3的取值范围为0到si,4、si,5与si,6的取值范围为0到2π;8)对于种群中的每个个体Si,根据如下方式组装T1与T2,并计算该个体的得分score(Si):8.1)根据Si中的后三个元素si,4、si,5与si,6,计算出一个三维空间旋转矩阵R:8.2)固定T1,将T2中的所有原子坐标信息,根据旋转矩阵R进行旋转,将旋转后的T2记作8.3)根据Si中的前三个元素与o1,计算出一个新的三维空间点onew:其中ζ=1-2·si,1,T表示向量的转置;8.4)固定T1,...

【专利技术属性】
技术研发人员:胡俊肖璐倩刘俊周晓根张贵军
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1