一种蛋白质结构预测算法评价指标构建方法技术

技术编号:19009379 阅读:77 留言:0更新日期:2018-09-22 09:13
一种蛋白质结构预测算法评价指标构建方法,利用Rosetta Abinitio协议对搜索空间进行搜索,通过对背景点的聚类找到潜在天然态区域;然后,执行待评价预测算法的迭代过程,分析每一代种群的进化状态;其次,计算种群前后两代的状态转移矩阵并用香农熵量化种群状态变化情况;最后,记录历代熵值,从而反应算法在蛋白质结构预测的作用。本发明专利技术提供一种蛋白质结构预测算法评价指标构建方法,一方面,在一定程度上直观反映算法在预测过程中的所处的状态,另一方面,利用熵值可以比较多个算法在预测中起到的作用。

A method for constructing evaluation index of protein structure prediction algorithm

An evaluation index construction method of protein structure prediction algorithm is proposed, which uses Rosetta Abinitio protocol to search the search space and find the potential natural state region by clustering the background points. Then, the iterative process of the evaluation and prediction algorithm is performed to analyze the evolution state of each generation of population. Secondly, the two populations are calculated. The Shannon entropy was used to quantify the state change of the population. Finally, the entropy values of the past dynasties were recorded to reflect the role of the algorithm in protein structure prediction. The present invention provides an evaluation index construction method for protein structure prediction algorithm. On the one hand, it can directly reflect the state of the algorithm in the prediction process to a certain extent, on the other hand, it can compare the functions of multiple algorithms in the prediction by using entropy value.

【技术实现步骤摘要】
一种蛋白质结构预测算法评价指标构建方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及一种蛋白质结构预测算法评价指标构建方法。
技术介绍
蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质,从而发挥某一特定功能。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要,因此,蛋白质结构预测是一个重要的研究问题。蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等。实验结构目前可用于小于1/1000的序列已知蛋白质,因此建模在广泛的生物问题提供结构信息方面发挥着重要作用。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。在近20年的CASP实验中,蛋白质结构预测领域发生了巨大变化。1994年,仅已知229个独特的蛋白质折叠(http://www.pdb.org),因此大多数目的序列与已知结构没有可检测的同源性,并且只能用“从头”方法建模。这种建模被认为是在计算生物学中的“重大挑战”问题。许多研究团队相继研发了各种从头预测方法,蛋白质结构预测精度逐渐提高,在历届CASP赛事中表现突出有Rosetta、QUARK等。RosettaAbinitio协议根据已知蛋白质三维结构和目标序列构建片段库,利用片段组装技术和基本MonteCarlo算法对能量模型进行优化。但是该方法在目标序列较长的情况下,蛋白质结构预测精度急剧下降。针对上述问题,研究者提出了相应的预测算法,其中应用最为广泛的是种群进化算法。然而,基于种群的蛋白质预测方法的好坏一般从最终预测精度和运行时间等方面来反应,不能直观地了解算法在预测过程中的作用,不利于研究者对算法进行改进。目前许多蛋白质结构预测算法是基于种群的框架,例如EDA。从算法的角度,分析比较多种蛋白质结构预测方法,进行合理地评价,对进一步提高采样效率和结构预测精度具有重要意义。因此,现有的基于种群的蛋白质结构预测方法在算法评价方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的基于种群的蛋白质结构预测方法在对算法评价这一方面的不足,本专利技术提供一种直接分析蛋白质结构预测算法评价指标构建方法。本专利技术解决其技术问题所采用的技术方案是:一种蛋白质结构预测算法评价指标构建方法,所述方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行RosettaAbinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k-mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k<m,过程如下:2.3.1)从m个背景点中随机选取k个点作为当前的簇心;2.3.2)对每个背景点bi,i∈{1,...,m}分类:计算背景点与k个簇心的距离则该背景点所属类别号为ci,ci满足条件2.3.3)找出每一类别背景点的簇心,计算每个点距离同一类别其他所有点的距离之和,距离之和最短的对应点为该类的簇心;2.3.4)如果簇心改变,则返回步骤2.3.2),继续聚类迭代过程;否则,簇心不变,执行下一步;3)评价基于种群的蛋白质结构预测方法,过程如下:3.1)对初始化种群进行分类,表示初始状态:种群规模为NP,种群表示为P={C1,C2,...,CNP},Cn,n∈{1,...,NP}为第n个种群个体,计算个体Cn与k个簇心的均方根偏差(RMSD)距离,若Cn与第p个簇心距离最近,那么该个体当前状态staten=p,p∈{1,...k},表明个体Cn属于第p类,整个种群的状态表示为statelast={state1,state2,...,stateNP},statelast表示上一代种群状态;3.2)对种群执行下一次迭代过程得到下一代种群,其中迭代过程的步骤由算法决定;3.3)计算当前种群状态:对当前种群中个体Cn,n∈{1,...,NP}分类,计算个体Cn与k个簇心的RMSD距离,若Cn与第q个簇心距离最近,那么该个体当前状态staten′=q,q∈{1,...k},表明个体Cn属于第q类,整个种群的状态表示为staten′ow={state1′,state2′,...,state′NP},staten′ow表示当前种群状态;3.4)根据前后两代的状态统计得出Markov状态转移矩阵T:对构象Cn,n∈{1,...,NP}的前后两次状态staten=p和staten′=q表明一次从状态p到状态q的转移,则tpq=tpq+1/m,tpq为矩阵T第p行第q列的数值,表示该状态转移频率,其初始值为0;3.5)根据状态转移矩阵T计算香农熵值Entropy=∑-tpqlntpq;3.6)更新当前种群状态statelast=statenow;3.7)判断算法迭代过程是否结束,若结束,输出最后预测结果和历代熵值并结束以上步骤;否则,返步骤3.2)。本专利技术的技术构思为:首先,利用RosettaAbinitio协议对搜索空间进行搜索,通过对背景点的聚类找到潜在天然态区域;然后,执行待评价预测算法的迭代过程,分析每一代种群的进化状态;其次,计算种群前后两代的状态转移矩阵并用香农熵量化种群状态变化情况;最后,记录历代熵值,从而反应算法在蛋白质结构预测的作用。本专利技术的有益效果表现在:一方面,在一定程度上直观反映算法在预测过程中的所处的状态,另一方面,利用熵值可以比较多个算法在预测中起到的作用。附图说明图1是蛋白质结构预测算法评价指标构建方法的基本流程图。图2是蛋白质结构预测算法评价指标构建方法对基于种群的RosettaAbinitio协议预测目标蛋白1ACF得到的熵值曲线图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种蛋白质结构预测算法评价指标构建方法,包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行RosettaAbinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k-mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k<m,过程如下:2.3.1)从m个背景点中随机选取k个点作为当前的簇心;2.3.2)对每个背景点bi,i∈{1,...,m}分类:计算背景点与k个簇心的距离则该背景点所属类别号为ci,ci满足条件2.3.3)找出每一类别背景点的簇心,计算每个点距离同一类别其他所有点的距离之和,距离之和最短的对应点为该类的簇心;2.3.4)如果簇心改变,则返回步骤2.3.2),继续聚类迭代过程;否则,簇心不变,执行下一步;3)评价基于种群的蛋白质结构预测方法,过程如下:3.1)对初始化种群进行分类,表示初始状态:种群规模为NP,种群表示为P={C1,C2本文档来自技高网
...
一种蛋白质结构预测算法评价指标构建方法

【技术保护点】
1.一种蛋白质结构预测算法评价指标构建方法,其特征在于:所述评价指标构建方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行Rosetta Abinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k‑mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k

【技术特征摘要】
1.一种蛋白质结构预测算法评价指标构建方法,其特征在于:所述评价指标构建方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行RosettaAbinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k-mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k<m,过程如下:2.3.1)从m个背景点中随机选取k个点作为当前的簇心;2.3.2)对每个背景点bi,i∈{1,...,m}分类:计算背景点与k个簇心的距离则该背景点所属类别号为ci,ci满足条件ci∈{1,...,k};2.3.3)找出每一类别背景点的簇心,计算每个点距离同一类别其他所有点的距离之和,距离之和最短的对应点为该类的簇心;2.3.4)如果簇心改变,则返回步骤2.3.2),继续聚类迭代过程;否则,簇心不变,执行下一步;3)评价基于种群的蛋白质结构预测方法,过程如下:3.1)对初始化种群进行分类,表示初始状态:种群规模为NP,种群表示为P={C1,C2,...,CNP},Cn,n∈{1,...,NP}为第n个种群个体,计算个体Cn与k个簇心的均方根偏差(RMSD)距离,若C...

【专利技术属性】
技术研发人员:张贵军谢腾宇王柳静王小奇郝小虎周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1