A population protein structure prediction method based on dynamic fragment length is proposed. For each target conformation, half of the conformation individuals are randomly selected from the current population to establish a sub-population, and the population is sorted according to the energy value, and one conformation is randomly selected from the top conformation to guide the mutation. In the process of mutation, multiple fragment lengths are designed and each fragment length is used to guide the mutation. In the early stage, the probability of being selected is calculated, and then a segment length is selected based on the selection probability to exchange segments according to roulette gambling, so as to realize the mutation process. The present invention provides a population protein structure prediction method based on dynamic fragment length with high prediction accuracy and search efficiency.
【技术实现步骤摘要】
一种基于动态片段长度的群体蛋白质结构预测方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于动态片段长度的群体蛋白质结构预测方法。
技术介绍
1965年,Nirenberg和Khorana等发现三联体遗传密码(即第一遗传密码),DNA以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列(即蛋白质一级结构);而蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能。相对于第一遗传密码,蛋白质序列一级结构与其三级结构之间的对应关系(即第二遗传密码或称折叠密码)仍为未解之谜。为了解决蛋白质折叠这一“世纪之问”,越来越多的具有不同学科背景的研究者参与其中,特别是针对蛋白质折叠过程的终点—蛋白质结构预测,受到了科学界广泛的关注和研究。相对蛋白质折叠而言,蛋白质结构预测具有更强的实用性,只有获得蛋白质的三维结构,才能真正实现基因诊断,并最终达到基因治疗的目的。目前,测定蛋白质三维结构的实验方法包括X射线晶体衍射、多维核磁共振(NMR)和冷冻电镜等。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。其次,这些实验测定方法价格昂贵,测定一个蛋白质的三维结构需要几十万美元,然而,测定一个蛋白质的一级氨基酸序列仅需1000美元左右,从而导致蛋白质序列和三维结构测定之间的鸿沟越来越大。因此,如何以计算机为工具,运用适当的算法,从氨基酸序列出 ...
【技术保护点】
1.一种基于动态片段长度的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:5.1)将构象Ci看作目标构象,从当前种群中随机选出NP/2个构象组建子种群,然后根据能量从低到高对该子种群进行排序;5.2)从排序后的子种群的前NP/5个构象中,随机选择一个与Ci不同的构象,记作Clbest;5.3)从当前种群中随机选择三个互不相同且与Ci和Clbest均不同的构象Ca、Cb和Cc;5. ...
【技术特征摘要】
1.一种基于动态片段长度的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据RosettaScore3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:5.1)将构象Ci看作目标构象,从当前种群中随机选出NP/2个构象组建子种群,然后根据能量从低到高对该子种群进行排序;5.2)从排序后的子种群的前NP/5个构象中,随机选择一个与Ci不同的构象,记作Clbest;5.3)从当前种群中随机选择三个互不相同且与Ci和Clbest均不同的构象Ca、Cb和Cc;5.4)利用轮盘赌算法...
【专利技术属性】
技术研发人员:周晓根,张贵军,彭春祥,胡俊,刘俊,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。