一种蛋白骨架设计方法及其应用技术

技术编号:27417812 阅读:19 留言:0更新日期:2021-02-21 14:35
本发明专利技术提供一种小蛋白骨架的设计方法及其应用,包括以下步骤,S1:创建专用的结构片段数据库;S2:生成小蛋白骨架数据库;S3:对小蛋白骨架进行氨基酸序列优化和设计;S4:采用与稳定性相关的指标对结构进行评价和过滤,不满足标准的结构将被移除过滤,最终形成计算预测上能够稳定折叠的小蛋白。本方法与现有方法最大的不同在于,文献报道设计的拓扑结构为HLHLHLHLH,而本发明专利技术设计的是更小的拓扑结构为HLHLH的蛋白,并且本发明专利技术根据HLHLH 拓扑结构的专门定义了更加严格的过滤标准,改进了SEWING的采样方法,因此设计出来的蛋白稳定性和序列可设计性应当更高,并且计算过程中优质骨架生成的效率更高。骨架生成的效率更高。骨架生成的效率更高。

【技术实现步骤摘要】
一种蛋白骨架设计方法及其应用


[0001]本专利技术属于生物
,具体涉及一种蛋白骨架计算设计方法及其应用。

技术介绍

[0002]目前,使用晶体结构的蛋白质片段或晶体结构的二级结构单元进行随机组装,生成有特定折叠模式的蛋白质结构以及序列。现有的骨架生成方法效率较低,得到的蛋白质结构模型质量参差不齐,需要大量的人工检查和参数评定,对数据库进行过滤,费时费力,人为视觉检查标准无法统一。并且在设计靶向结合的小蛋白时,经常匹配不到合适的小蛋白骨架模板,因此增加可用的小蛋白骨架数据是必要的。

技术实现思路

[0003]因此,本专利技术提供一种改进的小蛋白骨架设计方法,可以组装生成大量能够稳定折叠的蛋白作为靶向结合小蛋白的结构模板,该设计方法可克服当前的模板数量不足的问题,并使用提出的新的过滤标准实现自动化过滤,得到较高质量、稳定性数据较好的蛋白质骨架模型。
[0004]具体技术方案为:一种小蛋白骨架的设计方法,包括以下步骤:步骤(1),创建新的蛋白质数据库,从PDB数据库中将解析精度在3.0
Å
以下,小于30%序列相似的非冗余数据提取作为数据的输入集,将每段螺旋长度为5-25个氨基酸长度的HLH 片段进行分离,制备成新的数据库,以此将螺旋结构的大小控制在30-90个氨基酸区间。
[0005]步骤(2),生成小蛋白骨架数据库,采用改进的SEWING方法,通过图路径与蒙特卡洛的搜索方法,不断地将步骤(1)新建的蛋白质数据库中的HLH 片段进行随机组装,得到大量的粗粒化骨架模型,并使用新制定的结构特征指标对骨架模型进行初次过滤,形成小蛋白骨架数据库;所述的改进的SEWING方法具体为:通过图路径与蒙特卡洛的搜索方法,将每个HLH片段作为图路径搜索中的一个节点,将能够与该HLH结构吻合匹配的片段作为邻近的节点,然后随机地从一个节点进行出发,随机地选择相邻的节点进行结构组装。在迭代50,000-100,000步蒙特卡洛模拟退火搜索的过程中,每步迁移到一个节点时,以0.05-0.5%、80.0-94.5%的概率进行删除或替换上一步成功添加的HLH片段结构,或以5%-20%的概率将当前节点的HLH片段结构到已有的结构当中去。以上每步迭代搜索进行删除、替换或新增的操作生成的新结构构象,需要使用SEWING自带的简化能量打分模型进行能量评估,使用metropolis标准判定是否接纳此新的结构状态。此外,如果新添加或替换的片段与其他的区域存在骨架冲撞,那么这个构象将被抛弃。
[0006]所述结构特征指标包括:第一,通过统计每段螺旋上氨基酸Cα原子与其他螺旋上每一个氨基酸的Cα原子之间的距离,当这个距离4.5-6.0
Å
时,骨架的可设计性较低,大概率会引入丙氨酸,过多的丙氨酸不利于蛋白质的折叠,因此该改进操作可提高骨架氨基酸的
可设计性;第二,在生成过程中,要求位于N段和C段的螺旋结构长度不得低于7个氨基酸, 该改进有助于形成更加稳定的二级结构螺旋;第三,通过统计每段螺旋结构的几何中心与蛋白结构的质量中心结构的距离,该距离7.5-9.0
Å
,该标准的设定有助于筛选出那些螺旋结构之间存在紧密堆积的模型。
[0007]步骤(3),对小蛋白骨架进行氨基酸序列优化和设计,使用Rosetta FastDesign Mover对小蛋白骨架数据库中的小蛋白的氨基酸序列和侧链原子进行设计和能量优化,然后多次设计迭代形成新的蛋白序列结构。
[0008]所述小蛋白的氨基酸序列和侧链原子进行设计和能量优化的过程包括:限定小蛋白的外层氨基酸类型为极性氨基酸,边界和内核层氨基酸类型为疏水氨基酸,对处于内核、边界以及表面的氨基酸分别指定允许的序列空间。
[0009]所述设计迭代次数为3-5次为佳,也可以根据实际的项目要求设置迭代次数。
[0010]步骤(4),使用稳定性指标对生成的序列结构进行过滤,为评价设计小蛋白的稳定性,采用多项与稳定性相关的指标对结构进行评价和过滤,不满足标准的结构将被移除过滤,最终形成能够稳定折叠的小蛋白。
[0011]所述稳定性指标包括:螺旋中心距离、螺旋二级结构间的堆积质量、每段螺旋的长度、螺旋堆积之间的二面角、蛋白疏水内核氨基酸数量、丙氨酸数量、蛋白中的空腔体积、包埋的疏水氨基酸的溶剂可及表面积、不饱和氢键数量、蛋白质局部序列与二级结构匹配度、蛋白表面疏水氨基酸的溶剂可及表面积大小与比例、蛋白疏水内核原子平均密度。
[0012]优选地,稳定性指标具体为:1.每段螺旋与其他螺旋的螺旋几何中心距离设定为12-15
Å
;2.螺旋二级结构间的堆积质量系数应分布在0.5以上;3.每段螺旋的长度大于7-15个氨基酸长度;4.两股螺旋之间的堆积二面角优选分布在-50至150
°
范围;5.丙氨酸数量不应大于总氨基酸数量的5%-20%;6.蛋白中的空腔体积应小于200-300
ꢀÅ2;7.包埋的疏水氨基酸的溶剂可及表面积优选大于32-45
ꢀÅ2;8.不饱和氢键数量应小于10;9.蛋白质局部序列与二级结构匹配度应大于0.6;10.蛋白表面疏水氨基酸的溶剂可及表面积大小与比例优选小于20%;11.蛋白疏水内核原子平均密度应大于5个单位。
[0013]本专利技术中所采用的所有程序均参考“rosettacommons”网站中的软件命名。
[0014]本专利技术提供的蛋白骨架的设计方法,带来了如下效果:1. 本方法与现有方法最大的不同在于,文献报道设计的拓扑结构为HLHLHLHLH,而本专利技术设计的是更小的蛋白质HLHLH,并且本专利技术根据HLHLH 拓扑结构的特定专门定义了更加严格的过滤标准,改进了SEWING的采样方法,因此设计出来的蛋白稳定性、和序列可设计性应当更高,并且计算过程中优质骨架数据生成的效率更高。
[0015]2. 通过与David Baker实验筛选的HLHLH拓扑结构的蛋白进行对比分析,我们的方法带来了如下改进:结构多样性:通过结构的聚类分析,使用改进后的SEWING方法生成的数据库中PDB结构
可以聚类为7个簇,而现有已发布的David Baker实验室的螺旋结构数据库仅有2个簇。并且新方法设计的小蛋白序列长度分布范围为25-90个氨基酸,而David Baker实验室的小蛋白序列长度分布恒定在43。
[0016]结构稳定性: 通过对蛋白质的回旋半径(Rg)、氨基酸堆积质量(PackStat)、二级结构形状互补性、包埋非极性表面积、带电量、蛋白质内部空间体积、局部序列与局部二级结构的吻合度,Ramachandran二面角分布、蛋白表面暴露的疏水残基溶剂可及表面积进行比较,新方法生成的数据库指标与经过实验验证的高稳定性螺旋数据库中数据分布具有高度相似性,侧面印证新方法可以生成更多稳定且具有多样性的小蛋白结构。
附图说明
[0017]图1是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库丙氨酸数量(个)的统计分布图。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小蛋白骨架的设计方法,包括以下步骤:S1:创建新的结构片段数据库,从PDB数据库中将解析精度在3.0
Å
以下,小于30%序列相似的非冗余数据提取作为数据的输入集,将每段螺旋长度为5-25个氨基酸长度的HLH 片段进行分离,制备成新的数据库,以此将螺旋结构的大小控制在30-90个氨基酸区间;S2: 生成小蛋白骨架数据库,采用改进的SEWING方法,通过图路径与蒙特卡洛的搜索方法,不断地将S1新建的蛋白质数据库中的HLH 片段进行随机组装,得到大量的粗粒化骨架模型,并使用新制定的结构特征指标对骨架模型进行初次过滤,形成小蛋白骨架数据库;S3:对小蛋白骨架进行氨基酸序列优化和设计,使用Rosetta FastDesign Mover对小蛋白骨架数据库中的小蛋白的氨基酸序列和侧链原子进行设计和能量优化,然后多次设计迭代形成新的蛋白序列结构;S4:采用与稳定性相关的指标对结构进行评价和过滤,不满足标准的结构将被移除过滤,最终形成计算预测上能够稳定折叠的小蛋白。2.如权利要求1所述的设计方法,其特征在于,所述S2中,所述的改进的SEWING方法为:S21:通过图路径与蒙特卡洛的搜索方法,将每个HLH片段作为图路径搜索中的一个节点,将能够与该HLH结构吻合匹配的片段作为邻近的节点;S22:随机地从一个节点进行出发,随机地选择相邻的节点进行结构组装,当满足新制定的结构特征指标时,保留此结构模型用于进一步的氨基酸设计。3.如权利要求1所述的设计方法,其特征在于,所述S2中,所述的结构特征指标包括:(1):通过统计每段螺旋上氨基酸Cα原子与其他螺旋上每一个氨基酸的Cα原子之间的距离,使该距离为4.5-6.0
Å
时;(2):在生成过程中,要求位于N段和C段的螺旋结构长度不得低于7个氨基酸;(3):通过统计每段螺旋结构的几何中心与蛋白结构的质量中心结构的距离,该距离不得大于7.5
Å
。4.如权利要求2所述的设计方法,其特征在于,所述S21中,在迭代50,000-1...

【专利技术属性】
技术研发人员:王天元吴炜坤赖力鹏温书豪马健
申请(专利权)人:北京晶派科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1