一种蛋白质结构预测能量函数权重优化方法技术

技术编号:20567669 阅读:117 留言:0更新日期:2019-03-14 09:57
一种蛋白质结构预测能量函数权重优化方法,首先,将所有能量项的权重设置为1,通过蛋白质结构预测方法利用待确定能量项权重的能量函数产生多个样本构象;然后,基于差分进化算法,将各能量项的权重值看作优化变量,以样本构象的能量值和均方根偏差之间的相关系数最大为目标,对各能量项权重值进行优化;最后,利用优化得到的权重值对应的能量函数对构象空间进行优化,以能量值最小的构象作为最终的预测结构。本发明专利技术提供一种能够得到合理能量项权重值的蛋白质结构预测能量函数权重优化方法。

【技术实现步骤摘要】
一种蛋白质结构预测能量函数权重优化方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种蛋白质结构预测能量函数权重优化方法。
技术介绍
蛋白质结构实验测定方法是结构基因组学研究的主要内容。X射线晶体学是测定蛋白质结构最有效的方法,所能达到的精度是其它方法所不能比拟的,缺点主要是蛋白质晶体难以培养且晶体结构测定的周期较长;多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象,但是由于对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。总体上,结构实验测定方法主要存在两方面问题:一方面,对于现代药物设计的主要靶标膜蛋白而言,通过实验方法极难获得其结构;另一方面,测定过程费时费钱费力。在理论探索和应用需求的双重推动下,根据Anfinsen法则,利用计算机设计适当的算法,以序列为起点,三维结构为目标的蛋白质结构预测自20世纪末蓬勃发展。从头预测方法实质上就是利用计算机的快速处理能力,利用优化算法在蛋白质构象空间搜索全局最优构象解。为了评价预测中构象的质量,即判断是否为能量较低的构象,可以根据蛋白质结构中原子坐标的几何信息与已知势能函数联系起来,并将这些函数按照一定的权重组合起来形成力场。力场大致可以分为两种:第一种是基于物理的力场模型,即考虑角弯曲能、键伸展能、氢键相互作用、范德华相互作用和静电作用等,典型的物理力场有AMBER力场和CHARMM力场;第二种是基于知识的力场模型,通过提取PDB库中已知结构的信息来构建能量函数,对于蛋白质结构预测来说,PDB库不仅可以用来进行模板搜索,还可以用于挖掘已知蛋白结构的特征信息,从而构建基于知识的力场模型,例如,天然态结构中的氨基酸残基对距离、二面角、键角、侧链方向、溶剂可及性等方面的特征均可用来建立力场模型。这两种力场模型各有优劣,由于基于物理的力场模型从第一性原理出发,虽然有明确的物理意义,但是精度不够精确。基于知识的力场从已知结构中提出特征,避免了对物理本质的探索,而且容易实现。为了综合利用两种力场的优势,很多蛋白质结构预测方法的力场中即包含了基于物理的力场,又包含了基于知识的力场。然而,在这些能量力场中,由于考虑了各方面的能量,如何确定各能量项的权重至关重要,直接根据经验确定各能量项的权重会直接影响预测精度,不恰当的权重会导致较优构象在采用过程中丢失,降低预测精度。因此,现有的蛋白质结构预测方法在能量函数的权重确定方面存在着缺陷,需要改进。
技术实现思路
为了克服现有蛋白质结构预测方法中能量函数的权重不合理的不足,本专利技术提出一种可以得到合理的能量项权重的蛋白质结构预测能量函数权重优化方法。本专利技术解决其技术问题所采用的技术方案是:一种蛋白质结构预测能量函数权重优化方法,所述方法包括以下步骤:1)给定需要确定权重的蛋白质能量函数E,以及各能量项E1,E2,...,EN,其中N为能量项的数量,En表示能量函数E的第n个能量项,n=1,2,...,N;2)参数设置:设置种群规模NP,交叉概率CR,步长因子F,蛋白质样本构象数量S,最大迭代次数Gmax,并初始化迭代次数g=0;3)将所有能量项的权重设置为1,运用该能量函数对应的蛋白质结构预测方法生成S个样本构象,并记录第s个样本的第n项能量项的值s=1,2,...,S,n=1,2,...,N,以及该样本与天然态结构之间的均方根偏差Rs;4)将所有能量项权重组成的权重向量W=(W1,W2,...,WN)看作一个个体,其中Wn表示能量项En的权重,在(0,1]内随机生成NP个初始个体,组成初始种群P={W1,g,W2,g,...,WNP,g},其中Wi,g,i=1,2,...,NP表示第g代种群中的第i个个体;5)计算每个个体Wi,g,i=1,2,...,NP的均方根偏差和能量的相关系数C(Wi,g):其中为根据第g代的第i个个体Wi,g对应的权重计算得到的第s个样本的能量值,为Wi,g的第n维变量,为所有样本均方根偏差的平均值,为所有样本能量的平均值;6)对种群中的每个个体Wi,g,i∈{1,2,...,NP}执行如下操作:6.1)将个体Wi,g看作目标个体,根据相关系数对当前种群中的个体从大到小进行排序,并将排名靠前的NP/2的个体定为较优子种群,其余的为较差子种群;6.2)分别从较优子种群和较差子种群中的随机选择一个与目标个体不同的个体Wa,g和Wb,g,并从整个种群中随机一个与目标个体以及Wa,g和Wb,g均不相同的个体Wc,g;6.3)根据公式(2)生成变异个体Vi,g:其中,n=1,2,...,N为变异个体Vi,g的第n维向量;6.4)对变异个体进行交叉生成测试个体Ui,g:其中,n=1,2,...,N为测试个体Ui,g的第n维向量,randb(0,1)为0到1之间的随机小数,rnbr(n)为1到N之间的随机整数;6.5)根据公式(1)计算测试个体Ui,g的相关系数C(Ui,g);6.6)如果C(Ui,g)<C(Wi,g),则目标个体Wi,g保持不变,其中C(Wi,g)为目标个体的相关系数;6.7)如果C(Ui,g)≥C(Wi,g),则用测试个体Ui,g替换目标个体Wi,g;7)g=g+1,如果g>Gmax,则输出相关系数最大的个体为最终的能量项权重值,并以此权重对应的能量函数对构象空间进行优化,输出能量最低的构象作为最后的预测结构;否则返回步骤6)。本专利技术的技术构思为:首先,将所有能量项的权重设置为1,通过蛋白质结构预测方法利用待确定能量项权重的能量函数产生多个样本构象;然后,基于差分进化算法,将各能量项的权重值看作优化变量,以样本构象的能量值和均方根偏差之间的相关系数最大为目标,对各能量项权重值进行优化;最后,利用优化得到的权重值对应的能量函数对构象空间进行优化,以能量值最小的构象作为最终的预测结构。本专利技术提供一种能够得到合理能量项权重值的蛋白质结构预测能量函数权重优化方法。本专利技术的有益效果表现在:将各能量项的权重值看作优化变量,以样本构象的能量值和均方根偏差之间的相关系数最大为目标,利用差分进化算法对各能量项权重值进行优化,可以得到合理的能量项权重。附图说明图1是多域蛋白1efdN的天然态结构图。图2是蛋白质结构预测能量函数权重优化方法对多域蛋白结构组装预测方法优化得到的权重对多域蛋白1efdN预测得到的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种蛋白质结构预测能量函数权重优化方法,包括以下步骤:1)给定需要确定权重的蛋白质能量函数E,以及各能量项E1,E2,...,EN,其中N为能量项的数量,En表示能量函数E的第n个能量项,n=1,2,...,N;2)参数设置:设置种群规模NP,交叉概率CR,步长因子F,蛋白质样本构象数量S,最大迭代次数Gmax,并初始化迭代次数g=0;3)将所有能量项的权重设置为1,运用该能量函数对应的蛋白质结构预测方法生成S个样本构象,并记录第s个样本的第n项能量项的值s=1,2,...,S,n=1,2,...,N,以及该样本与天然态结构之间的均方根偏差Rs;4)将所有能量项权重组成的权重向量W=(W1,W2,...,WN)看作一个个体,其中Wn表示能量项En的权重,在(0,1]内随机生成NP本文档来自技高网
...

【技术保护点】
1.一种蛋白质结构预测能量函数权重优化方法,其特征在于:所述方法包括以下步骤:1)给定需要确定权重的蛋白质能量函数E,以及各能量项E1,E2,...,EN,其中N为能量项的数量,En表示能量函数E的第n个能量项,n=1,2,...,N;2)参数设置:设置种群规模NP,交叉概率CR,步长因子F,蛋白质样本构象数量S,最大迭代次数Gmax,并初始化迭代次数g=0;3)将所有能量项的权重设置为1,运用该能量函数对应的蛋白质结构预测方法生成S个样本构象,并记录第s个样本的第n项能量项的值

【技术特征摘要】
1.一种蛋白质结构预测能量函数权重优化方法,其特征在于:所述方法包括以下步骤:1)给定需要确定权重的蛋白质能量函数E,以及各能量项E1,E2,...,EN,其中N为能量项的数量,En表示能量函数E的第n个能量项,n=1,2,...,N;2)参数设置:设置种群规模NP,交叉概率CR,步长因子F,蛋白质样本构象数量S,最大迭代次数Gmax,并初始化迭代次数g=0;3)将所有能量项的权重设置为1,运用该能量函数对应的蛋白质结构预测方法生成S个样本构象,并记录第s个样本的第n项能量项的值s=1,2,...,S,n=1,2,...,N,以及该样本与天然态结构之间的均方根偏差Rs;4)将所有能量项权重组成的权重向量W=(W1,W2,...,WN)看作一个个体,其中Wn表示能量项En的权重,在(0,1]内随机生成NP个初始个体,组成初始种群其中Wi,g,i=1,2,...,NP表示第g代种群中的第i个个体;5)计算每个个体Wi,g,i=1,2,...,NP的均方根偏差和能量的相关系数C(Wi,g):其中为根据第g代的第i个个体Wi,g对应的权重计算得到的第s个样本的能量值,为Wi,g的第n维变量,为所有样本均方根偏差的平均值,为所有样本能量的平均值;6)对种群中的每个个体Wi,g,i∈{1,2,...

【专利技术属性】
技术研发人员:周晓根张贵军彭春祥刘俊胡俊郝小虎
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1