【技术实现步骤摘要】
【国外来华专利技术】确定蛋白结构的机器学习
技术介绍
本说明书涉及确定蛋白结构。蛋白由氨基酸序列组成。氨基酸是一种有机化合物,包括氨基官能团和羧基官能团,以及对该氨基酸特定的侧链(即原子团)。蛋白折叠是指氨基酸序列折叠成三维构型的物理过程。如本文所使用的,蛋白的结构定义了蛋白经历蛋白折叠后,蛋白的氨基酸序列中的原子的三维构型。当在通过肽键连接的序列中时,氨基酸可以被称为氨基酸残基。可以使用机器学习模型进行预测。机器学习模型接收输入,并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数的值生成输出。可以通过由其氨基酸序列预测结构来确定蛋白的结构。一些机器学习模型是深度模型,其采用模型的多个层来为所接收的输入生成输出。例如,深度神经网络是一种深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于所接收的输入以生成输出。
技术实现思路
本说明书描述了在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统执行蛋白三级结构预测和蛋白结构域分割。描述了许多技术。这些技术可以组合或孤立地使用。在第一方面,描述了一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法。给定蛋白包括氨基酸序列,并且给定蛋白的预测结构由多个结构参数的值定义。生成给定蛋白的预测结构可以包括获得定义预测结构的多个结构参数的初始值,以及更新多个结构参数的初始值。更新可以包括,在多个更新迭代中的每一个处:确定得分,例如,表征由结构参数的当前值定义的预测结构的 ...
【技术保护点】
1.一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法,其中所述给定蛋白包括氨基酸序列,其中所述给定蛋白的预测结构由多个结构参数的值来定义,所述方法包括:/n生成所述给定蛋白的多个预测结构,其中生成所述给定蛋白的预测结构包括:/n获得定义所述预测结构的多个结构参数的初始值;/n更新所述多个结构参数的初始值,包括,在多个更新迭代中的每一个处:/n确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分,其中所述质量得分基于一个或多个评分神经网络的相应输出,每个评分神经网络被配置为处理:(i)所述结构参数的当前值,(ii)所述给定蛋白的氨基酸序列的表示,或(iii)两者;和/n对于所述多个结构参数中的一个或多个:/n确定所述质量得分相对于所述结构参数的当前值的梯度;以及/n使用所述质量得分相对于所述结构参数的当前值的梯度来更新所述结构参数的当前值;以及/n在所述多个更新迭代中的最终更新迭代之后,将所述给定蛋白的预测结构确定为由所述多个结构参数的当前值定义;以及/n选择所述给定蛋白的特定预测结构作为所述给定蛋白的最终预测结构。/n
【技术特征摘要】
【国外来华专利技术】20180921 US 62/734,757;20180921 US 62/734,773;20181.一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法,其中所述给定蛋白包括氨基酸序列,其中所述给定蛋白的预测结构由多个结构参数的值来定义,所述方法包括:
生成所述给定蛋白的多个预测结构,其中生成所述给定蛋白的预测结构包括:
获得定义所述预测结构的多个结构参数的初始值;
更新所述多个结构参数的初始值,包括,在多个更新迭代中的每一个处:
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分,其中所述质量得分基于一个或多个评分神经网络的相应输出,每个评分神经网络被配置为处理:(i)所述结构参数的当前值,(ii)所述给定蛋白的氨基酸序列的表示,或(iii)两者;和
对于所述多个结构参数中的一个或多个:
确定所述质量得分相对于所述结构参数的当前值的梯度;以及
使用所述质量得分相对于所述结构参数的当前值的梯度来更新所述结构参数的当前值;以及
在所述多个更新迭代中的最终更新迭代之后,将所述给定蛋白的预测结构确定为由所述多个结构参数的当前值定义;以及
选择所述给定蛋白的特定预测结构作为所述给定蛋白的最终预测结构。
2.根据权利要求1所述的方法,其中:
所述一个或多个评分神经网络包括距离预测神经网络,所述距离预测神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示的输入以生成所述给定蛋白的距离图;
所述距离图对于所述给定蛋白的氨基酸序列中的多对氨基酸中的每一对,定义在该对氨基酸之间的可能距离范围内的相应概率分布;和
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括,对于所述给定蛋白的氨基酸序列中的每一对氨基酸:
使用在由所述距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率。
3.根据权利要求2所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分进一步包括:
基于在所述给定蛋白的氨基酸序列中的每一对氨基酸上,根据在由所述距离图定义的该对氨基酸残基之间的可能距离范围内的相应概率分布,该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率的乘积,确定所述质量得分。
4.根据权利要求2-3中的任一项所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
对于所述给定蛋白的氨基酸序列中的每一对氨基酸:
使用在由参考距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率,
其中所述参考距离图对于所述给定蛋白的氨基酸序列中的每一对氨基酸,定义在该对氨基酸之间的可能距离范围内的相应概率分布,所述相应概率分布基于所述氨基酸对中的氨基酸在给定蛋白的氨基酸序列中的位置、所述氨基酸对中的氨基酸的相对偏移或两者来确定;和
基于在所述给定蛋白的氨基酸序列中的每一对氨基酸上,根据在由所述参考距离图定义的该对氨基酸残基之间的可能距离范围内的相应概率分布,该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率的乘积,确定所述质量得分。
5.根据权利要求1-4中的任一项所述的方法,其中:
所述一个或多个评分神经网络包括结构预测神经网络,所述结构预测神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示的输入,以生成输出,所述输出对于所述多个结构参数中的每一个,定义在所述结构参数的可能值上的概率分布;并且
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括,对于所述多个结构参数中的每一个:
使用在由所述结构预测神经网络生成的所述结构参数的可能值上的相应概率分布,确定所述结构参数的当前值的概率。
6.根据权利要求5所述的方法,其中:
对于所述多个结构参数中的每一个,在所述结构参数的可能值上的概率分布是基于所述结构预测神经网络的输出而确定的参数概率分布。
7.根据权利要求6所述的方法,其中所述参数概率分布是冯·米塞斯概率分布。
8.根据权利要求1-7中的任一项所述的方法,其中:
所述一个或多个评分神经网络包括几何神经网络,所述几何神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示和所述结构参数的当前值的输入以生成几何得分;
所述几何得分是由所述结构参数的当前值定义的所述给定蛋白的预测结构与所述给定蛋白的实际结构之间的相似性度量的估计;并且
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
基于由所述几何神经网络生成的几何得分确定所述质量得分。
9.根据权利要求1-8中的任一项所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
基于所述结构参数的当前值,确定表征所述结构参数的当前值的似然性的物理约束得分,所述物理约束得分基于所述结构参数的当前值与对所述给定蛋白的结构的物理约束的符合程度。
10.根据权利要求1-9中的任一项所述的方法,其中使用所述质量得分相对于所述结构参数的当前值的梯度来...
【专利技术属性】
技术研发人员:安德鲁·W·塞尼尔,詹姆斯·柯克帕特里克,劳伦特·西弗尔,理查德·安德鲁·埃文斯,雨果·佩内多尼斯,秦翀立,孙若溪,凯伦·西蒙尼扬,约翰·将姆佩尔,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。