一种基于距离谱的群体构象空间优化方法技术

技术编号:12140598 阅读:104 留言:0更新日期:2015-10-01 19:40
一种基于距离谱的群体构象空间优化方法,首先初始化构象,在每个温度层对查询序列进行随机的折叠和变换生成一个初始化种群;在每个温度层中依次将种群中每个个体作为目标个体,随机选取和目标个体不一样的两个个体进行变异,根据距离谱来判断是否接受变异个体,然后再将另一个个体与变异个体产生测试个体,根据能量判断是否接受构象。在更新完种群后,将相邻两个温度层之间种群个体进行副本交换来增加种群的多样性,通过不断更新种群以及副本交换获得一系列亚稳态构象。本发明专利技术预测精度较高、复杂度较低。

【技术实现步骤摘要】

本专利技术设及生物信息学、计算机应用领域,尤其设及的是一种基于距离谱的群体 构象空间优化方法。
技术介绍
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究 成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因 表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。目前, 根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,捜索分子 系统的最小能量状态,从而高通量、廉价地预测肤链的天然构象,已经成为生物信息学最重 要的研究课题之一。对于序列相似度低或多肤(<1〇个残基的小蛋白)来说,从头预测方法 是唯一的选择。从头预测方法必须考虑W下两个因素;(1)蛋白质结构能量函数;(2)构象 空间捜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白 质结构对应的能量值。目前已经存在一些有效的结构能量函数,如简单网格模型HP及更实 际的经验力场模型MM3, AMBER, CHARMM,GROMOS,DISCOVER, ECEPP/3等;第二个因素本质上 属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速捜索,得到与某一 全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。 2005年,D. Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精 度的一个瓶颈因素。 因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足, 需要改进。【
技术实现思路
】 为了克服现有的构象空间优化方法存在采样效率较低、复杂度较高、预测精度较 低的不足,本专利技术提出,在基本差分进化算法框 架下,引入表示空间中各个位置上残基的相互距离的距离谱来提高构象空间优化算法的有 效性,距离谱根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可达性、中 屯、原子二面角等构建得到。首先初始化构象,在每个温度层对查询序列进行随机的折叠和 变换生成一个初始化种群;在每个温度层中依次将种群中每个个体作为目标个体,随机选 取和目标个体不一样的两个个体进行变异,根据距离谱来判断是否接受变异个体,然后再 将另一个个体与变异个体产生测试个体,根据能量判断是否接受构象。在更新完种群后,将 相邻两个温度层之间种群个体进行副本交换来增加种群的多样性,通过不断更新种群W及 副本交换获得一系列亚稳态构象。本专利技术提供了一种预测精度较高、复杂度较低的构象空 间优化方法。 本专利技术解决其技术问题所采用的技术方案是: ,所述优化方法包括W下步骤: 1)初始化;设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次 数iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折 叠和变换,生成一个规模为popSize的初始种群,初始群体为Pt= {xi|i G I},计算目标函 数值W,i E I,并设二|皆、/(.、.'),其中1为种群个体编号,I为种群个体编号集合,I ={1, 2,. . . , popSize},为对应温度层目柄;函数值中的最小值,T为温度层;[000引 2)变异、交叉生成测试个体X'1;对每个目标个体XI (i=1, 2,…,popSize) 作如下处理: 2. 1)令 i = 1 ; 2. 2)任意选取S个个体{x。, yb, X。I a, b, C G (1, 2, . . . , popSize}, a 声 b 声 C 声 i}; 2.3)根据公式(1)对{xa,A xl执行变异操作及片段组装,生成变异个体若;义=_Y"+F.(y-x) (n 2. 4)对变异个体i'?进行片段组装生成组装个体皆,,根据距离谱对组装个体為, 进行判断,接受概率Accept_prob油ility为;1 =油3(。4_。'斗1'〇^16_。')。随机产生一个0到1之间的随机数 rand_Acc巧t,若Accept_prob油ility〉rand_Acc巧t,则用组装个体卷J代替变异个体文'。 2.5)根据公式(3)对目标个体xi和变异个体义执行交叉操作,生成测试个体 X' 1,其中,ran化化1)表示为产生0到1之间的随机小数,rnbr(k)表示随机产生1到N 之间的整数;[001引其中k为索引编号; 2. 6) i = i+1 ;如果;KpopSize 转至 2. 2); 3)根据Anfinsen提出的天然构象的蛋白质处于热力学最低的能量状态,比较测 试个体X' i和目标个体I(i = 1,2,…,popSize)的能量函数值,选择能量函数值较 低的个体从而更新种群; 4)在每个温度层都进行变异、交叉和选择更新完种群后,将相邻的温度层的对应 个体进行副本交换: 4. 1)首先选择种群中第i个个体,i G I (i = 1,2,…,popSize);[002引 4.。选择两个相邻的温度层Tj和T W,j = 1,2,…,7 ; 4. 3)产生一个随机数randl G (0, 1),和判别数化dge 其中/(4)(,' = 1,2....,口〇?化6)为种群个体奇的能量值,1'^〇 = 1,2,...,7)为第^- 个温度层的开尔文温度,j为索引编号; 4. 4)若randl<化dge,将相邻温度层中的嗦,和而个体进行交换; 5)置/* = 1加1/(.\:;); i&I 6)判断是否满足终止条件到达迭代次数iteration,如不满足则转至2); 7)如满足终止条件,则输出结果。 本专利技术的有益效果为:距离谱是根据查询序列中残基和模板中残基的序列谱、二 级结构类型、溶剂可达性、中屯、原子二面角等等构建出的空间中各个位置上残基的相互距 离。蛋白质结构预测是基于差分进化算法值巧的框架。首先初始化构象,在每个温度层对 查询序列进行随机的折叠和变换生成一个初始化种群;在每个温度层中依次将种群中每个 个体作为目标个体,随机选取和目标个体不一样的两个个体进行变异,根据距离谱来判断 是否接受变异个体,然后再将另一个个体与变异个体产生测试个体,根据能量判断是否接 受构象。在更新完种群后,将相邻两个温度层之间种群个体进行副本交换来增加种群的多 样性,通过不断更新种群W及副本交换获得一系列亚稳态构象。本专利技术提供了一种预测精 度较高、复杂度较低的构象空间优化方法。【附图说明】 图1是测试序列在种群更新过程中MSD和能量值的关系示意图。【具体实施方式】: 下面结合附图对本专利技术作进一步描述。 参照图1,,所述构象空间优化方法包括 W下步骤: 1)初始化;设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次 数iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折 叠和变换,生成一个规模为popSize的初始种群,初始群体为Pt= {xi|i G I},计算目标函 数值fT(xi),i E I,并设/;' = 11;1^尸八〇'其中1为种群个体编号,1为种群个体编号集合,1 ={1, 2,. . . ,popSize},.片为对本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104951670.html" title="一种基于距离谱的群体构象空间优化方法原文来自X技术">基于距离谱的群体构象空间优化方法</a>

【技术保护点】
一种基于距离谱的群体构象空间优化方法,其特征在于:所述优化方法包括以下步骤:1)初始化:设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次数iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折叠和变换,生成一个规模为popSize的初始种群,初始群体为PT={xi|i∈I},计算目标函数值fT(xi),i∈I,并设其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,popSize},为对应温度层目标函数值中的最小值,T为温度层;2)变异、交叉生成测试个体x′i:对每个目标个体xi∈I(i=1,2,…,popSize)作如下处理:2.1)令i=1;2.2)任意选取三个个体{xa,xb,xc|a,b,c∈{1,2,...,popSize},a≠b≠c≠i};2.3)根据公式(1)对{xa,xb,xc}执行变异操作及片段组装,生成变异个体x^i=xa+F·(xb-xc)---(1)]]>2.4)对变异个体进行片段组装生成组装个体根据距离谱对组装个体进行判断,接受概率Accept_probability为:Accept_probability=0.8/(Deviation)Deviation=>1(1-Deviation)*0.2+0.8Deviation<1---(2)]]>残基i到残基j之间的距离为FA_ij,距离谱中i到j之间的距离Profile_ij,则在公式(2)中Deviation=abs(FA_ij‑Profile_ij),随机产生一个0到1之间的随机数rand_Accept,若Accept_probability>rand_Accept,则用组装个体代替变异个体2.5)根据公式(3)对目标个体xi和变异个体执行交叉操作,生成测试个体x′i,其中,randb(0,1)表示为产生0到1之间的随机小数,rnbr(k)表示随机产生1到N之间的整数;x′i=x^kiif(randb(0,1)≤CRork=rnbr(k)xkiif(randb(0,1)>CRork≠rnbr(k)k=1,2,...,N---(3)]]>其中k为索引编号;2.6)i=i+1;如果i<popSize转至2.2);3)根据Anfinsen提出的天然构象的蛋白质处于热力学最低的能量状态,比较测试个体x′i和目标个体xi∈I(i=1,2,…,popSize)的能量函数值,选择能量函数值较低的个体从而更新种群;4)在每个温度层都进行变异、交叉和选择更新完种群后,将相邻的温度层的对应个体进行副本交换:4.1)首先选择种群中第i个个体,i∈I(i=1,2,…,popSize);4.2)选择两个相邻的温度层Tj和Tj+1,j=1,2,…,7;4.3)产生一个随机数rand1∈(0,1),和判别数judgejudge=e(1(K×(Tj+1))-1K×Jj)×(f(xTj+1i)-f(xTji)))---(4)]]>其中(i=1,2,…,popSize)为种群个体的能量值,Tj(j=1,2,…,7)为第j个温度层的开尔文温度,j为索引编号;4.4)若rand1<judge,将相邻温度层中的和个体进行交换;5)置f*=mini∈If(xTi);]]>6)判断是否满足终止条件到达迭代次数iteration,如不满足则转至2);7)如满足终止条件,则输出结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张贵军俞旭锋郝小虎周晓根陈凯徐东伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1