【技术实现步骤摘要】
蛋白质结构预测
技术介绍
[0001]蛋白质是由氨基酸残基的长链组成的生物分子或大分子。蛋白质在生物体内执行许多重要的生命活动,并且蛋白质的功能主要由其三维(3D)结构决定。了解蛋白质结构有助于了解蛋白质的作用,了解蛋白质之间的相互作用,了解蛋白质如何行使其生物功能等。这对医学和生物
是非常重要的。例如,如果某个蛋白质在某个疾病中起关键作用,可以基于该蛋白质的结构来设计药物分子,以治疗该疾病。
[0002]当前普遍通过实验手段来研究蛋白质结构。然而,通过实验手段来确定蛋白质的结构非常耗时耗力。相比于自然界中已有的蛋白质数目,目前以实验手段确定出的结构的蛋白质的数目很少。因此,低成本、高产出的蛋白质结构预测是当前蛋白质结构研究的重点。
技术实现思路
[0003]根据本公开的实现,提出了一种用于预测蛋白质结构的方案。在该方案中,获取针对目标蛋白质的约束集,约束集包括针对目标蛋白质的多个结构属性的多个约束。提取多个约束各自的特征信息,并基于多个约束的特征信息来确定多个约束各自对应的多个权重。每个权重指示对应的约束在用于预测目标 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:获取针对目标蛋白质的约束集,所述约束集包括针对所述目标蛋白质的多个结构属性的多个约束;提取所述多个约束各自的特征信息;基于所述多个约束的特征信息来确定所述多个约束各自对应的多个权重,每个权重指示对应的约束在用于预测所述目标蛋白质的结构时对所述预测的影响程度;以及基于所述约束集中的所述多个约束和所述多个权重来预测所述目标蛋白质的结构。2.根据权利要求1所述的方法,其中所述多个结构属性包括组成所述目标蛋白质的多个残基的残基间距离和残基间取向,并且其中所述多个约束分别指示针对所述多个结构属性的属性值的概率分布信息。3.根据权利要求1所述的方法,其中确定所述多个约束各自的多个权重包括:利用约束质量分析模型,基于所提取的特征信息来确定所述多个约束各自的多个质量得分,所述约束质量分析模型基于蛋白质的已知结构中的多个结构属性的真实属性值来被训练;以及基于所述多个约束各自的多个质量得分来向所述多个约束分别指派所述多个权重。4.根据权利要求1所述的方法,其中预测所述目标蛋白质的结构包括:通过多次迭代来预测所述目标蛋白质的结构,在每一次迭代中,从所述约束集中丢弃至少一个约束,以获得简化约束集,以及基于所述简化约束集和向所述简化优化集中的多个约束指派的所述权重,来生成所述目标蛋白质的至少一个预测结构;以及基于所述多次迭代中生成的多个预测结构来确定所述目标蛋白质的目标结构。5.根据权利要求1所述的方法,其中预测所述目标蛋白质的结构包括:生成与所述多个结构属性分别对应的多个蛋白质特定势能函数,每个蛋白质特定势能函数基于所述约束集中针对对应结构属性的一组约束的加权,所述加权基于所述一组约束的相应权重;基于所述多个蛋白质特定势能函数,确定用于预测蛋白质结构的结构预测模型的第一目标函数;以及利用所述结构预测模型,至少通过使所述第一目标函数达到收敛目标来确定所述目标蛋白质的结构,所述结构的所述多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束。6.根据权利要求5所述的方法,其中至少通过使所述第一目标函数达到收敛目标来确定所述目标蛋白质的结构包括:生成至少一个几何结构势能函数,所述至少一个几何结构势能函数基于针对蛋白质的至少一个基本几何结构属性的至少一个约束,所述至少一个约束基于从已知蛋白质的天然肽确定的所述至少一个基本几何结构属性的属性值;基于所述至少一个几何结构势能函数来确定用于所述结构预测模型的第二目标函数;利用所述结构预测模型,通过使所述第一目标函数和所述第二目标函数分别达到各自的收敛目标来确定所述目标蛋白质的所述结构,所述结构的所述多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束,并且所述结构的几何结构满足所述至少一个几何
结构势能函数中所使用的约束。7.根据权利要求6所述的方法,其中通过最小化所述第一目标函数和所述第二目标函数来确定所述目标蛋白质的所述结构包括:在第一阶段中,通过使所述第一目标函数达到收敛目标来生成所述目标蛋白质的至少一个中间预测结构,所述至少一个中间预测结构各自的多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束;以及在第二阶段中,通过使所述第一目标函数和所述第二目标函数均达到各自的收敛目标来更新所述至少一个中间预测结构,以确定所述目标蛋白质的所述结构。8.根据权利要求7所述的方法,其中所述至少一个基本几何结构属性包括以下至少一项:相邻Cα原子之间的成对距离,Cα原子之间的序列间隔,肽键的长度,残基的O原子与下一个残基中的N原子之间的距离,残基的O原子与所述残基的下一个残基中的Cα原子之间的距离,以及任一原子对之间的距离与所述原子对中的两个原子的半径之和之间的差异。9.根据权利要求1所述的方法,其中预测所述目标蛋白质的结构包括:通过多次迭代来预测所述目标蛋白质的所述结构,在所述多次迭代中的给定迭代中,从所述给定迭代的前一次迭代生成的多个预测结构中选择至少一个预测结构,从所选择的至少一个预测结构确定所述多个结构属性各自的多个参考属性值,分别确定所述约束集中针对所述多个结构属性的所述多个约束与所确定的所述多个参考属性值之间的差异,如果所述多个约束中的至少一个约束所指示的属性值与相应参考属性值之间的差异大于阈值差异,从所述约束集中丢弃所述至少一个约束,以获得简化约束集,以及基于所述简化约束集和对所述简化优化集中的多个约束指派的所述权重,确定在所述给定迭代中所述目标蛋白质的多个预测结构。10.根据权利要求9所述的方法,其中确定在所述给定迭代中所述目标蛋白质的多个预测结构包括:在所述给定迭代中,基于所选择的所述至少一个预测结构来确定所述目标蛋白质的至少一个初始结构;以及通过优化所述至少一个初始结构来确定在所述给定迭代中所述目标蛋白质的多个预测结构。11.根据权利要求9所述的方法,其中选择所述至...
【专利技术属性】
技术研发人员:王童,邵斌,刘铁岩,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。