An evaluation index construction method of protein structure prediction algorithm is proposed, which uses Rosetta Abinitio protocol to search the search space and find the potential natural state region by clustering the background points. Then, the iterative process of the evaluation and prediction algorithm is performed to analyze the evolution state of each generation of population. Secondly, the two populations are calculated. The Shannon entropy was used to quantify the state change of the population. Finally, the entropy values of the past dynasties were recorded to reflect the role of the algorithm in protein structure prediction. The present invention provides an evaluation index construction method for protein structure prediction algorithm. On the one hand, it can directly reflect the state of the algorithm in the prediction process to a certain extent, on the other hand, it can compare the functions of multiple algorithms in the prediction by using entropy value.
【技术实现步骤摘要】
一种蛋白质结构预测算法评价指标构建方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及一种蛋白质结构预测算法评价指标构建方法。
技术介绍
蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质,从而发挥某一特定功能。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要,因此,蛋白质结构预测是一个重要的研究问题。蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等。实验结构目前可用于小于1/1000的序列已知蛋白质,因此建模在广泛的生物问题提供结构信息方面发挥着重要作用。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。在近20年的CASP实验中,蛋白质结构预测领域发生了巨大变化。1994年,仅已知229个独特的蛋白质折叠(http://www.pdb.org),因此大多数目的序列与已知结构没有可检测的同源性,并且只能用“从头”方法建模。这种建模被认为是在计算生物学中的“重大挑战”问题。许多研究团队相继研发了各种从头预测方法,蛋白质结构预测精度逐渐提高,在历届CASP赛事中表现突出有Rosetta、QUARK等。RosettaAbinitio协议根据已知蛋白质三维结构和目标序列构建片段库,利用片段组装技术和基本MonteCarlo算法对能量模型进行优化。但是该方法在目标序列较长的情况下,蛋白质结构预测精度急剧下降。针对上述问题,研究者提出了相应的预测算法,其中应用最为广泛的是种群进化算法 ...
【技术保护点】
1.一种蛋白质结构预测算法评价指标构建方法,其特征在于:所述评价指标构建方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行Rosetta Abinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k‑mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k
【技术特征摘要】
1.一种蛋白质结构预测算法评价指标构建方法,其特征在于:所述评价指标构建方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)对搜索空间初步探索并建立Markov状态模型,过程如下:2.1)获取m个背景点:运行RosettaAbinitio协议m次,记录每次运行的构象结果,作为背景点;2.2)计算m个背景点之间的方均根差距离,组成距离矩阵D;2.3)根据距离矩阵D,利用k-mediods聚类方法对m个背景点分类,得到k个簇心,作为k个Markov状态,其中k<m,过程如下:2.3.1)从m个背景点中随机选取k个点作为当前的簇心;2.3.2)对每个背景点bi,i∈{1,...,m}分类:计算背景点与k个簇心的距离则该背景点所属类别号为ci,ci满足条件ci∈{1,...,k};2.3.3)找出每一类别背景点的簇心,计算每个点距离同一类别其他所有点的距离之和,距离之和最短的对应点为该类的簇心;2.3.4)如果簇心改变,则返回步骤2.3.2),继续聚类迭代过程;否则,簇心不变,执行下一步;3)评价基于种群的蛋白质结构预测方法,过程如下:3.1)对初始化种群进行分类,表示初始状态:种群规模为NP,种群表示为P={C1,C2,...,CNP},Cn,n∈{1,...,NP}为第n个种群个体,计算个体Cn与k个簇心的均方根偏差(RMSD)距离,若C...
【专利技术属性】
技术研发人员:张贵军,谢腾宇,王柳静,王小奇,郝小虎,周晓根,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。