使用简化多序列比对来训练蛋白结构预测神经网络制造技术

技术编号:38618239 阅读:16 留言:0更新日期:2023-08-26 23:45
用于训练神经网络训练以预测蛋白的结构的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:针对多种蛋白中的每一者获得所述蛋白的完整多序列比对;针对所述多种蛋白中的每一者生成表征来自所述蛋白的所述完整多序列比对的所述蛋白的结构的靶结构参数,包括:使用结构预测神经网络处理所述蛋白的所述完整多序列比对的表示以生成表征所述蛋白的结构的输出结构参数;以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数;针对所述多种蛋白中的每一者确定所述蛋白的简化多序列比对,包括从所述蛋白的所述完整多序列比对中去除或掩蔽数据。去除或掩蔽数据。去除或掩蔽数据。

【技术实现步骤摘要】
【国外来华专利技术】使用简化多序列比对来训练蛋白结构预测神经网络

技术介绍

[0001]本说明书涉及训练预测蛋白结构的神经网络。
[0002]蛋白由一个或多个氨基酸序列指定。氨基酸是包括氨基官能团和羧基官能团以及对氨基酸具有特异性的侧链(即,原子团)的有机化合物。蛋白折叠是指氨基酸序列折叠成三维(3

D)构型的物理进程。蛋白的结构定义了在蛋白经历蛋白折叠之后蛋白的氨基酸序列中的原子的3

D构型。当在由肽键链接的序列中时,氨基酸可以被称为氨基酸残基。
[0003]可以使用机器学习模型来进行预测。机器学习模型接收输入并且基于接收到的输入来生成输出,例如预测输出。一些机器学习模型是参数模型并且基于接收到的输入和模型的参数值来生成输出。一些机器学习模型是采用多层模型来为接收到的输入生成输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,该隐藏层分别将非线性变换应用于接收到的输入以生成输出。

技术实现思路

[0004]本说明书描述了被实现为一个或多个位置中的一个或多个计算机上的计算机程序的训练系统以用于训练可以预测蛋白结构的结构预测神经网络。
[0005]如贯穿本说明书所使用,术语“蛋白”可以被理解为指由一个或多个氨基酸序列指定的任何生物分子。例如,术语蛋白可以被理解为指蛋白结构域(例如可以经历几乎独立于氨基酸序列的其余部分的蛋白折叠的氨基酸序列的一部分)或蛋白复合物(例如由多个相关联的氨基酸序列指定的)。
[0006]本文中所描述的方法和系统可以用于将结构预测神经网络训练为用于获得配体,诸如工业酶的药物或配体。例如,获得配体的方法可以包括获得靶氨基酸序列,具体地为靶蛋白的氨基酸序列,并且使用结构预测神经网络基于靶氨基酸序列来处理输入以确定靶蛋白的(三级)结构,即,预测蛋白结构。该方法然后可以包括评估一种或多种候选配体与靶蛋白的结构的相互作用。该方法还可以包括根据相互作用的评估结果来选择候选配体中的一者或多者作为配体。
[0007]在一些实施方式中,评估相互作用可以包括评估候选配体与靶蛋白的结构的结合。例如,评估相互作用可以包括识别以对于生物效应足够的亲和力结合的配体。在一些其他实施方式中,评估相互作用可以包括评估候选配体与靶蛋白的结构的缔合,其对靶蛋白(例如酶)的功能具有影响。评估可以包括评估候选配体与靶蛋白的结构之间的亲和力,或评估相互作用的选择性。
[0008]候选配体可以衍生自候选配体数据库,和/或可以通过修饰候选配体数据库中的配体而衍生,例如通过修饰候选配体的结构或氨基酸序列而衍生,和/或可以通过候选配体的逐步或迭代组装/优化而衍生。
[0009]评估候选配体与靶蛋白的结构的相互作用可以使用计算机辅助方法来进行,在该计算机辅助方法中,显示了候选配体和靶蛋白结构的图形模型以供用户操纵,和/或评估可以例如使用标准分子(蛋白

配体)对接软件来部分或完全自动地进行。在一些实施方式中,
评估可以包括确定候选配体的相互作用分数,其中相互作用分数包括候选配体与靶蛋白之间的相互作用的量度。相互作用分数可以取决于相互作用的强度和/或特异性,例如,分数取决于结合自由能。可以根据候选配体的分数来选择候选配体。
[0010]在一些实施方式中,靶蛋白包括受体或酶,并且配体是受体或酶的激动剂或拮抗剂。在一些实施方式中,该方法可以用于识别细胞表面标志物的结构。这然后可以用于识别结合到细胞表面标志物的配体,例如抗体或诸如荧光标记的标记。这可以用于识别和/或治疗癌细胞。
[0011]在一些实施方式中,候选配体可以包括小分子配体,例如分子量<900道尔顿的有机化合物。在一些其他实施方式中,候选配体可以包括多肽配体,即,由氨基酸序列定义的多肽配体。
[0012]在一些情况下,使用本文中所描述的技术训练的结构预测神经网络可以用于确定候选多肽配体(例如工业酶的药物或配体)的结构。然后可以评估该结构与靶蛋白结构的相互作用;可能已经使用结构预测神经网络或使用常规物理调查技术(诸如x射线晶体学和/或磁共振技术)来确定靶蛋白结构。
[0013]因此,在另一方面,提供了一种使用结构预测神经网络的方法,该结构预测神经网络使用本文中所描述的技术来训练以获得多肽配体(例如分子或其序列)。该方法可以包括获得一种或多种候选多肽配体的氨基酸序列。该方法还可以包括使用结构预测神经网络确定候选多肽配体的(三级)结构。该方法还可以包括经由计算机模拟(in silico)和/或通过物理调查来获得靶蛋白的靶蛋白结构,并且评估一种或多种候选多肽配体中的每一者的结构与靶蛋白结构之间的相互作用。该方法还可以包括根据评估结果来选择候选多肽配体中的一者或多者作为多肽配体。
[0014]如前所述,评估相互作用可以包括评估候选多肽配体与靶蛋白的结构的结合,例如识别以对于生物效应足够的亲和力结合的配体,和/或评估候选多肽配体与靶蛋白的结构的缔合,其对靶蛋白(例如酶)的功能具有影响,和/或评估候选多肽配体与靶蛋白的结构之间的亲和力,或评估相互作用的选择性。在一些实施方式中,多肽配体可以是适配体。
[0015]该方法的实施方式还可以包括合成(即,制作)小分子或多肽配体。配体可以通过任何常规化学技术合成和/或可能已经获得,例如可以来自化合物库或可能已经使用组合化学合成。合成可以是手动的,或半自动的,或全自动的。合成的小分子或多肽配体可以是药物。
[0016]该方法还可以包括在体外和/或体内测试配体的生物活性。例如,可以测试配体的ADME(吸收、分布、代谢、排泄)和/或毒物学特性以筛选出不合适的配体。测试可以包括例如使候选小分子或多肽配体与靶蛋白接触并且测量蛋白的表达或活性的变化。
[0017]在一些实施方式中,候选(多肽)配体可以包括:分离的抗体、分离的抗体的片段、单变量结构域抗体、双或多特异性抗体、多价抗体、双变量结构域抗体、免疫缀合物、纤连蛋白分子、粘附蛋白、DARPin、抗体、亲和体、抗转运蛋白、亲和蛋白、蛋白表位模拟物或它们的组合。候选(多肽)配体可以包括具有突变或化学修饰的氨基酸Fc区的抗体,例如,当与野生型Fc区相比时,该突变或化学修饰的氨基酸Fc区防止或降低ADCC(抗体依赖性细胞毒性)活性和/或增加半衰期。因此,在一些实施方式中,该方法用于获得包括抗体的多肽配体。
[0018]错误折叠的蛋白与多种疾病相关联。因此,在另一方面,提供了一种使用结构预测
神经网络的方法,该结构预测神经网络使用本文中所描述的技术来训练以识别蛋白错误折叠疾病的存在。该方法可以包括获得蛋白的氨基酸序列并且使用结构预测神经网络确定蛋白的结构。该方法还可以包括例如通过常规(物理)方法(诸如X射线晶体学、NMR光谱学或电子显微术)来获得从人体或动物体中获得的蛋白的样式(version)的结构。该方法然后可以包括将蛋白的结构与从身体中获得的样式的结构进行比较,并且根据比较结果来识别蛋白错误折叠疾病的存在。也就是说,可以通过与经由计算机模拟确定的结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置进行的用于训练结构预测神经网络的方法,所述结构预测神经网络被配置为通过处理网络输入来生成表征蛋白的结构的结构参数,所述网络输入包括所述蛋白的多序列比对的表示,所述方法包括:针对多种蛋白中的每一者获得所述蛋白的完整多序列比对;针对所述多种蛋白中的每一者生成表征来自所述蛋白的所述完整多序列比对的所述蛋白的结构的靶结构参数,包括:使用所述结构预测神经网络处理所述蛋白的所述完整多序列比对的表示以生成表征所述蛋白的结构的输出结构参数;以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数;针对所述多种蛋白中的每一者确定所述蛋白的简化多序列比对,包括从所述蛋白的所述完整多序列比对中去除或掩蔽数据;以及将所述结构预测神经网络训练为针对所述多种蛋白中的一者或多者处理所述蛋白的所述简化多序列比对的表示,以生成与所述蛋白的所述靶结构参数匹配的结构参数。2.根据权利要求1所述的方法,其中针对所述多种蛋白中的每一者,从所述蛋白的所述完整多序列比对中去除数据包括:从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列。3.根据权利要求2所述的方法,其中从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列包括:根据可能缩减参数值集合上的概率分布来从所述可能缩减参数值集合中对缩减参数值进行采样,其中所述缩减参数值指定要从所述蛋白的所述完整多序列比对中去除的氨基酸序列的数量;以及从所述蛋白的所述完整多序列比对中去除指定数量的氨基酸序列。4.根据权利要求3所述的方法,其中从所述蛋白的所述完整多序列比对中去除所述指定数量的氨基酸序列包括:随机选择要从所述蛋白的所述完整多序列比对中去除的所述氨基酸序列。5.根据任一前述权利要求所述的方法,其中针对所述多种蛋白中的每一者,从所述蛋白的所述完整多序列比对中掩蔽数据包括:掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性。6.根据权利要求5所述的方法,其中掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性包括:对要在所述蛋白的所述完整多序列比对中的所述氨基酸序列中掩蔽的所述位置进行随机采样。7.根据权利要求5至6中任一项所述的方法,所述方法还包括:将所述结构预测神经网络训练为针对所述多种蛋白中的每一者处理所述蛋白的所述简化多序列比对的所述表示,以生成预测所述蛋白的所述简化多序列比对中的每个掩蔽氨基酸的所述同一性的辅助输出。8.根据任一前述权利要求所述的方法,其中基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数包括:
将随机噪声值添加到所述蛋白的所述输出结构参数。9.根据任一前述权利要求所述的方法,其中所述结构预测神经网络被配置为处理网络输入,所述网络输入包括以下两者:(i)蛋白的多序列比对的表示;和(ii)所述蛋白的氨基酸序列的表示。10.根据任一前述权利要求所述的方法,所述方法还包括:针对所述多种蛋白中的每一者,确定所述蛋白的所述靶结构参数的置信度估计。11.根据权利要求10所述的方法,所述方法还包括:识别所述蛋白的所述靶结构参数的所述置信度估计不满足阈值的一种或多种蛋白;以及抑制基于所识别的蛋白来训练所述结构预测神经网络。12.根据权利要求10至11中任一项所述的方法,其中训练所述结构预测神经网络包括:确定目标函数的梯度,所述目标函数针对所述多种蛋白中的一者或多者测量(i)由所述结构预测神经网络通过处理所述蛋白的所述简化多序列比对的所述表示而生成的所述结构参数与(ii)所述蛋白的所述靶结构参数之间的误差,其中所述误差由所述蛋白的所述靶结构参数的所述置信度估计的函数缩放。13.根据权利要求10至12中任一项所述的方法,其中针对所述多种蛋白中的每一者:通过处理所述蛋白的所述完整多序列比对的所述表示来生成所述蛋白的所述靶结构参数的所述置信度估计作为所述结构预测神经网络的辅助输出;其中所述蛋白的所述靶结构参数的所述置信度估计定义(i)由所述结构预测神经网络通过处理所述蛋白的所述完整多序列比对生成的所述输出结构参数与(ii)表征所述蛋白的基础实况结构的基础实况结构参数之间的误差的估计。14.根据任一前述权利要求所述的方法,所述方法还包括:将所述结构预测神经网络训练为针对一种或多种其他蛋白处理所述其他蛋白的多序列比对的表示,以生成与所述其他蛋白的基础实况结构参数匹配的结构参数。15.根据权利要求14所述的方法,其中通过物理实验确定所述其他蛋白的所述基础实况结构参数。16.一种由一个或多个数据处理装置进行的方法,所述方法包括:训练教师结构预测神经网络,所述教师结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数,所述输入(i)包括所述蛋白的氨基酸序列的表示;和(ii)包括所述蛋白的多序列比对的表示;以及训练学生结构预测神经网络,所述学生结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数,所述输入(i)包括所述蛋白的氨基酸序列的表示...

【专利技术属性】
技术研发人员:R
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1