一种基于片段库信息增强的蛋白质结构预测方法技术

技术编号:20922033 阅读:21 留言:0更新日期:2019-04-20 10:52
一种基于片段库信息增强的蛋白质结构预测方法,首先,根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型,然后根据过滤因子控制筛选力度,将二级结构匹配得分较差的片段从片段库中删除,再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构,从而提高蛋白质结构预测的效率和精度。本发明专利技术提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。

A Protein Structure Prediction Method Based on Segment Library Information Enhancement

A protein structure prediction method based on fragment library information enhancement is proposed. Firstly, a secondary structure scoring model is established according to the matching degree between the secondary structure of fragments in fragment library and the predicted secondary structure of protein. Then, according to the filtering factor, the fragments with poor secondary structure matching score are deleted from the fragment library, and then the fragment assembly technology is applied to the fragment library. Fragments are combined to optimize the generation and prediction of protein structure, so as to improve the efficiency and accuracy of protein structure prediction. The invention provides a protein structure prediction method based on fragment library information enhancement with high prediction accuracy.

【技术实现步骤摘要】
一种基于片段库信息增强的蛋白质结构预测方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于片段库信息增强的蛋白质结构预测方法。
技术介绍
随着2003年人类基因组计划正式宣布完成,人类已经破解第一遗传密码,即DNA以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列的过程。然而,蛋白质如何从氨基酸序列折叠成特定的三维结构任是未解之谜。蛋白质的三维结构决定了其特定的生物功能,因此如何高效的获取蛋白质三维结构成为生物信息学领域的重要研究课题。获取蛋白质三维结构的途径主要有两种。第一种途径是利用实验方法直接测定蛋白质的三维结构,这类方法包括X射线晶体衍射、核磁共振、冷冻电镜技术等,这类方法所需的资金投入高、测定周期长,并且不能适用于所有类型的蛋白质。第二种途径是利用生物大数据、人工智能和系统优化技术直接从蛋白质氨基酸序列预测其三维结构,这类方法以计算机为基础,所需的成本较低,能够高效的预测蛋白质三维结构。全世界范围内有许多研究机构正在研究第二类方法,并逐渐应用于疾病诊断和药物设计,其中具有代表性的研究团队有美国华盛顿的DavidBaker实验室、美国密歇根大学的张阳实验室等。国内越来越多的高校和研究机构也加入到蛋白质结构预测的研究当中。目前,大多数蛋白质结构预测方法都用到了片段组装技术。首先,利用深度学习的方法根据预测蛋白质的氨基酸序列从蛋白质数据库中提取结构片段组成片段库;然后,在能量函数的引导下利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构。然而,片段库中的信息不都是有效的,甚至存在一些错误信息,这些错误信息的存在不仅增加了计算代价而且会对预测蛋白质的精度产生不利影响。因此,目前蛋白质结构预测方法使用的片段库包含一些不利信息,造成蛋白质结构预测的效率和精度较低,需要进行改进。
技术实现思路
为了减小片段库中不利信息降低预测蛋白质的精度,本专利技术提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。首先,根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型,然后根据过滤因子控制筛选力度,将二级结构匹配得分较差的片段从片段库中删除,再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构,从而提高蛋白质结构预测的效率和精度。本专利技术解决其技术问题所采用的技术方案是:一种基于片段库信息增强的蛋白质结构预测方法,包括以下步骤:1)输入预测蛋白质的序列信息和预测的二级结构信息;2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;3)筛选片段库信息,过程如下:3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;3.2)计算滑动窗口的二级结构最高分,过程如下:3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为和其中n∈{r,r+1,…,r+f-1};3.2.2)第r个滑动窗口的二级结构总分为:3.3)对滑动窗口对应的片段库进行筛选,过程如下:3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;3.3.2)计算片段k的二级结构得分:其中表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;3.3.3)决定是否从片段库中去除片段k,过程如下:3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);3.3.3.2)若则将片段k从片段库中去除,转至步骤2.3.4);3.3.3.3)若则将片段k从片段库中去除;3.3.4)k=k+1;3.3.5)若k≤200,转至步骤2.3.2);否则,转至步骤2.4);3.4)r=r+1;3.5)若r≤L-f+1,转至步骤2.2);否则,片段库筛选完成,得到信息增强的片段库;4)利用信息增强的片段库进行片段组装,过程如下:4.1)设m=1,m∈{1,2,…,M};4.2)执行片段插入操作,过程如下:4.2.1)若m≤0.5*M,执行步骤4.2.2);否则执行步骤4.2.3);4.2.2)从当前构象Ptarget中随机选择一个窗口宽度为3的滑动窗口,从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial,转至步骤4.3);4.2.3)从当前构象Ptarget中随机选择一个窗口宽度为9的滑动窗口,从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial;4.3)利用能量函数计算构象Ptarget和Ptrial的能量Etarget和Etrial;4.4)计算替换概率:4.5)生成均匀随机小数prand,prand∈[0,1];若prand<p,用新构象替换当前构象Ptarget=Ptrial,否则不进行替换;4.6)m=m+1;4.7)若m≤M,转至步骤4.2);否则,片段组装完成;5)输出片段组装后的构象作为预测结果。本专利技术的有益效果为:利用预测的蛋白结构二级结构信息对片段库进行筛选,去除二级结构匹配较差的片段,从而提高片段库的质量,减小计算代价的同时提高预测蛋白质的精度。附图说明图1是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测时的构象更新示意图。图2是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测得到的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种基于片段库信息增强的蛋白质结构预测方法,包括以下步骤:1)输入预测蛋白质的序列信息和预测的二级结构信息;2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;3)筛选片段库信息,过程如下:3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;3.2)计算滑动窗口的二级结构最高分,过程如下:3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为和其中n∈{r,r+1,…,r+f-1};3.2.2)第r个滑动窗口的二级结构总分为:3.3)对滑动窗口对应的片段库进行筛选,过程如下:3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;3.3.2)计算片段k的二级结构得分:其中表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;3.3.3)决定是否从片段库中去除片段k,过程如下:3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);3.3.3.2)若则将片段k从片段库中去除,转至步骤2.3.4);3.3.3.3)若则将片段k从片段库中去除;3.3.4)k=k+1;3.3.5)若k≤200,转至步骤2.3.2);否则,转至步骤2.4);3.4)r=r+1;3.5)若r≤L-f+1,转至步骤2.2);否则,片段库筛选完成,得本文档来自技高网
...

【技术保护点】
1.一种基于片段库信息增强的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)输入预测蛋白质的序列信息和预测的二级结构信息;2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;3)筛选片段库信息,过程如下:3.1)设r=1,r∈{1,2,…,L‑f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;3.2)计算滑动窗口的二级结构最高分,过程如下:3.2.1)设第n号残基预测的二级结构为α‑helical、β‑strand和loop的置信度分别为

【技术特征摘要】
1.一种基于片段库信息增强的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)输入预测蛋白质的序列信息和预测的二级结构信息;2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;3)筛选片段库信息,过程如下:3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;3.2)计算滑动窗口的二级结构最高分,过程如下:3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为和其中n∈{r,r+1,…,r+f-1};3.2.2)第r个滑动窗口的二级结构总分为:3.3)对滑动窗口对应的片段库进行筛选,过程如下:3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;3.3.2)计算片段k的二级结构得分:其中表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;3.3.3)决定是否从片段库中去除片段k,过程如下:3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);3.3.3.2)若则将片段k从片段库中去除,转至步骤2.3.4);3.3.3.3)...

【专利技术属性】
技术研发人员:张贵军刘俊彭春祥胡俊周晓根王柳静
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1