确定蛋白结构的机器学习制造技术

技术编号:27890758 阅读:10 留言:0更新日期:2021-03-31 02:14
用于执行蛋白结构预测和蛋白结构域分割的方法、系统和装置,其包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括生成蛋白的多个预测结构,其中生成蛋白的预测结构包括:更新蛋白的多个结构参数的初始值,包括在多个更新迭代中的每一个处:确定结构参数的当前值的质量得分相对于结构参数的当前值的梯度;以及使用所述梯度更新结构参数的当前值。

【技术实现步骤摘要】
【国外来华专利技术】确定蛋白结构的机器学习
技术介绍
本说明书涉及确定蛋白结构。蛋白由氨基酸序列组成。氨基酸是一种有机化合物,包括氨基官能团和羧基官能团,以及对该氨基酸特定的侧链(即原子团)。蛋白折叠是指氨基酸序列折叠成三维构型的物理过程。如本文所使用的,蛋白的结构定义了蛋白经历蛋白折叠后,蛋白的氨基酸序列中的原子的三维构型。当在通过肽键连接的序列中时,氨基酸可以被称为氨基酸残基。可以使用机器学习模型进行预测。机器学习模型接收输入,并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数的值生成输出。可以通过由其氨基酸序列预测结构来确定蛋白的结构。一些机器学习模型是深度模型,其采用模型的多个层来为所接收的输入生成输出。例如,深度神经网络是一种深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于所接收的输入以生成输出。
技术实现思路
本说明书描述了在一个或多个位置的一个或多个计算机上作为计算机程序实施的系统,该系统执行蛋白三级结构预测和蛋白结构域分割。描述了许多技术。这些技术可以组合或孤立地使用。在第一方面,描述了一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法。给定蛋白包括氨基酸序列,并且给定蛋白的预测结构由多个结构参数的值定义。生成给定蛋白的预测结构可以包括获得定义预测结构的多个结构参数的初始值,以及更新多个结构参数的初始值。更新可以包括,在多个更新迭代中的每一个处:确定得分,例如,表征由结构参数的当前值定义的预测结构的质量的质量得分。质量得分可以表示预测的结构的正确性程度和/或预测的结构的似然性有多大,例如,质量得分可以表征蛋白的预测结构与实际结构之间的估计相似性和/或预测结构的似然性。质量得分可以基于一个或多个评分神经网络的相应输出,每个评分神经网络被配置为处理:(i)结构参数的当前值,或(ii)给定蛋白的氨基酸序列的表示,或(iii)两者。该方法可以进一步包括,对于多个结构参数中的一个或多个:确定质量得分相对于结构参数的当前值的梯度;以及使用质量得分相对于结构参数的当前值的梯度来更新结构参数的当前值。因此,该方法的一些实施方式可以将基于得分的优化系统用于结构预测。该方法可以进一步包括,在多个更新迭代中的最终更新迭代之后,将给定蛋白的预测结构确定为由多个结构参数的当前值定义。该方法可以包括使用上述方法生成给定蛋白的多个预测结构。然后,该方法可以进一步包括将给定蛋白的特定预测结构选择为给定蛋白的最终预测结构。结构参数是定义蛋白结构的参数。它们可以包括主链扭转角(二面角φ,ψ)集合和/或可以包括蛋白的一些或全部原子(例如,碳原子,例如α或β碳原子)的(3D)原子坐标。在实施方式中,这种方法通过优化质量得分,在实施方式中通过梯度下降,有助于高度准确地预测给定蛋白的结构。质量得分可以被视为将通过梯度下降而被最小化的“势能”。在一些实施方式中,一个或多个评分神经网络包括距离预测神经网络,该距离预测神经网络被配置为处理氨基酸序列的表示以生成给定蛋白的距离图。在实施方式中,距离图对于序列中的多对氨基酸中的每一对,定义了在该对氨基酸之间的可能距离范围内的相应概率分布。例如,可以量化可能距离范围,或者可以由参数化的概率分布来表示在可能距离范围内的概率分布。可以由氨基酸(残基)的特定的相应原子(诸如α和/或β碳原子)之间的距离来定义该对氨基酸之间的范围。然后,该方法可以进一步包括通过对于每一对氨基酸,使用在由距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定氨基酸被由结构参数的当前值定义的距离隔开的概率来确定质量得分。在实施方式中,预测距离有助于汇聚成准确的预测结构。距离图共同预测了许多距离,并促进了将关于协变、局部结构以及氨基酸残基同一性的距离信息传播到附近残基的方法。更具体地,预测距离概率分布还通过对预测中的不确定性进行建模,进一步促进了这一点。在一些实施方式中,质量得分取决于在序列中的每一对氨基酸上,根据在由距离图定义的可能距离范围内的相应概率分布,氨基酸被由结构参数的当前值定义的距离隔开的概率的乘积(即质量得分可能取决于这些概率的乘积)。确定质量得分可以进一步包括,对于每一对氨基酸,使用在由参考距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定氨基酸被由结构参数的当前值定义的距离隔开的概率。参考距离图可以基于氨基酸对中的氨基酸在给定蛋白的氨基酸序列中的位置、氨基酸对中的氨基酸的相对偏移或两者来定义概率分布;但是在实施方式中,不以氨基酸序列为条件,尽管任选地以序列的长度为条件。该方法可以进一步包括基于在给定蛋白的氨基酸序列中的每一对氨基酸上,根据由参考距离图定义的可能距离范围内的相应概率分布,氨基酸被由结构参数的当前值定义的距离隔开的概率的乘积来确定质量得分。例如,可以使用该乘积,对先前距离分布的过度表示校正质量得分,例如,通过从质量得分的对数中减去该乘积的对数(或等同地,概率的对数的总和)。在实施方式中,评分神经网络可以包括结构预测神经网络,以处理氨基酸序列(的表示)并对于多个结构参数的每一个,生成在该结构参数的可能值上的概率分布。然后,确定质量得分可以包括,对于多个结构参数中的每一个,使用相应概率分布来确定结构参数的当前值的概率。这样的质量得分可以表示结构参数的当前值的似然性;同样地,使用概率分布对此建模可以通过对结构预测的不确定性进行建模来帮助提高准确性。在一些实施方式中,结构参数由离散范围限定,在这种情况下,将在结构参数的可能值上的概率分布表示为参数概率分布以提供平滑、可微分的分布可能是有利的。这有助于确定质量得分相对于结构参数值的梯度。参数概率分布可以是冯·米塞斯(vonMises)(或圆法线)概率分布,这在结构参数可以包括主链扭转角集合的情况下很方便。可以将以此方式确定的质量得分与从距离图得出的质量得分相组合,例如,通过对(负)对数似然性求和,使得质量得分表示可以例如通过梯度下降而被最小化的组合的、可微分的“势能”。结构预测神经网络的输出和距离预测神经网络的输出可以包括公共神经网络上的单独头。任选地,结构预测神经网络和距离预测神经网络之一或两者的输入可以包括从序列的MSA(多序列比对)中得出的一个或多个特征。在实施方式中,评分神经网络可以包括几何神经网络,以处理氨基酸序列(的表示)并且生成几何得分,该几何得分表示由结构参数的当前值定义的预测结构与给定蛋白的实际结构之间的相似性度量的估计。然后,质量得分可以全部或部分地基于几何得分。确定质量得分可以进一步包括基于结构参数的当前值,确定表征结构参数的当前值的似然性的物理或物理约束得分,该物理或物理约束得分取决于结构参数的当前值与对给定蛋白结构的生化或物理约束的符合程度。例如,可以通过范德华项对结构上的空间约束进行建模。在例如通过梯度下降进行优化之前,可以通过使用结构预测神经网络处理氨基酸序列并从每个结构参数的概率分布进行采样来获得结构参数的初始值。如果先前本文档来自技高网...

【技术保护点】
1.一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法,其中所述给定蛋白包括氨基酸序列,其中所述给定蛋白的预测结构由多个结构参数的值来定义,所述方法包括:/n生成所述给定蛋白的多个预测结构,其中生成所述给定蛋白的预测结构包括:/n获得定义所述预测结构的多个结构参数的初始值;/n更新所述多个结构参数的初始值,包括,在多个更新迭代中的每一个处:/n确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分,其中所述质量得分基于一个或多个评分神经网络的相应输出,每个评分神经网络被配置为处理:(i)所述结构参数的当前值,(ii)所述给定蛋白的氨基酸序列的表示,或(iii)两者;和/n对于所述多个结构参数中的一个或多个:/n确定所述质量得分相对于所述结构参数的当前值的梯度;以及/n使用所述质量得分相对于所述结构参数的当前值的梯度来更新所述结构参数的当前值;以及/n在所述多个更新迭代中的最终更新迭代之后,将所述给定蛋白的预测结构确定为由所述多个结构参数的当前值定义;以及/n选择所述给定蛋白的特定预测结构作为所述给定蛋白的最终预测结构。/n

【技术特征摘要】
【国外来华专利技术】20180921 US 62/734,757;20180921 US 62/734,773;20181.一种由一个或多个数据处理装置执行的用于确定给定蛋白的最终预测结构的方法,其中所述给定蛋白包括氨基酸序列,其中所述给定蛋白的预测结构由多个结构参数的值来定义,所述方法包括:
生成所述给定蛋白的多个预测结构,其中生成所述给定蛋白的预测结构包括:
获得定义所述预测结构的多个结构参数的初始值;
更新所述多个结构参数的初始值,包括,在多个更新迭代中的每一个处:
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分,其中所述质量得分基于一个或多个评分神经网络的相应输出,每个评分神经网络被配置为处理:(i)所述结构参数的当前值,(ii)所述给定蛋白的氨基酸序列的表示,或(iii)两者;和
对于所述多个结构参数中的一个或多个:
确定所述质量得分相对于所述结构参数的当前值的梯度;以及
使用所述质量得分相对于所述结构参数的当前值的梯度来更新所述结构参数的当前值;以及
在所述多个更新迭代中的最终更新迭代之后,将所述给定蛋白的预测结构确定为由所述多个结构参数的当前值定义;以及
选择所述给定蛋白的特定预测结构作为所述给定蛋白的最终预测结构。


2.根据权利要求1所述的方法,其中:
所述一个或多个评分神经网络包括距离预测神经网络,所述距离预测神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示的输入以生成所述给定蛋白的距离图;
所述距离图对于所述给定蛋白的氨基酸序列中的多对氨基酸中的每一对,定义在该对氨基酸之间的可能距离范围内的相应概率分布;和
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括,对于所述给定蛋白的氨基酸序列中的每一对氨基酸:
使用在由所述距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率。


3.根据权利要求2所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分进一步包括:
基于在所述给定蛋白的氨基酸序列中的每一对氨基酸上,根据在由所述距离图定义的该对氨基酸残基之间的可能距离范围内的相应概率分布,该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率的乘积,确定所述质量得分。


4.根据权利要求2-3中的任一项所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
对于所述给定蛋白的氨基酸序列中的每一对氨基酸:
使用在由参考距离图定义的该对氨基酸之间的可能距离范围内的相应概率分布,确定该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率,
其中所述参考距离图对于所述给定蛋白的氨基酸序列中的每一对氨基酸,定义在该对氨基酸之间的可能距离范围内的相应概率分布,所述相应概率分布基于所述氨基酸对中的氨基酸在给定蛋白的氨基酸序列中的位置、所述氨基酸对中的氨基酸的相对偏移或两者来确定;和
基于在所述给定蛋白的氨基酸序列中的每一对氨基酸上,根据在由所述参考距离图定义的该对氨基酸残基之间的可能距离范围内的相应概率分布,该对氨基酸被由所述结构参数的当前值定义的距离隔开的概率的乘积,确定所述质量得分。


5.根据权利要求1-4中的任一项所述的方法,其中:
所述一个或多个评分神经网络包括结构预测神经网络,所述结构预测神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示的输入,以生成输出,所述输出对于所述多个结构参数中的每一个,定义在所述结构参数的可能值上的概率分布;并且
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括,对于所述多个结构参数中的每一个:
使用在由所述结构预测神经网络生成的所述结构参数的可能值上的相应概率分布,确定所述结构参数的当前值的概率。


6.根据权利要求5所述的方法,其中:
对于所述多个结构参数中的每一个,在所述结构参数的可能值上的概率分布是基于所述结构预测神经网络的输出而确定的参数概率分布。


7.根据权利要求6所述的方法,其中所述参数概率分布是冯·米塞斯概率分布。


8.根据权利要求1-7中的任一项所述的方法,其中:
所述一个或多个评分神经网络包括几何神经网络,所述几何神经网络被配置为处理包括所述给定蛋白的氨基酸序列的表示和所述结构参数的当前值的输入以生成几何得分;
所述几何得分是由所述结构参数的当前值定义的所述给定蛋白的预测结构与所述给定蛋白的实际结构之间的相似性度量的估计;并且
确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
基于由所述几何神经网络生成的几何得分确定所述质量得分。


9.根据权利要求1-8中的任一项所述的方法,其中确定表征由所述结构参数的当前值定义的所述预测结构的质量的质量得分包括:
基于所述结构参数的当前值,确定表征所述结构参数的当前值的似然性的物理约束得分,所述物理约束得分基于所述结构参数的当前值与对所述给定蛋白的结构的物理约束的符合程度。


10.根据权利要求1-9中的任一项所述的方法,其中使用所述质量得分相对于所述结构参数的当前值的梯度来...

【专利技术属性】
技术研发人员:安德鲁·W·塞尼尔詹姆斯·柯克帕特里克劳伦特·西弗尔理查德·安德鲁·埃文斯雨果·佩内多尼斯秦翀立孙若溪凯伦·西蒙尼扬约翰·将姆佩尔
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利