【技术实现步骤摘要】
【国外来华专利技术】使用简化多序列比对来训练蛋白结构预测神经网络
技术介绍
[0001]本说明书涉及训练预测蛋白结构的神经网络。
[0002]蛋白由一个或多个氨基酸序列指定。氨基酸是包括氨基官能团和羧基官能团以及对氨基酸具有特异性的侧链(即,原子团)的有机化合物。蛋白折叠是指氨基酸序列折叠成三维(3
‑
D)构型的物理进程。蛋白的结构定义了在蛋白经历蛋白折叠之后蛋白的氨基酸序列中的原子的3
‑
D构型。当在由肽键链接的序列中时,氨基酸可以被称为氨基酸残基。
[0003]可以使用机器学习模型来进行预测。机器学习模型接收输入并且基于接收到的输入来生成输出,例如预测输出。一些机器学习模型是参数模型并且基于接收到的输入和模型的参数值来生成输出。一些机器学习模型是采用多层模型来为接收到的输入生成输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,该隐藏层分别将非线性变换应用于接收到的输入以生成输出。
技术实现思路
[0004]本说明书描述了被实现为一个或多个位置中的一个或多个计算机上的计算机程序的训练系统以用于训练可以预测蛋白结构的结构预测神经网络。
[0005]如贯穿本说明书所使用,术语“蛋白”可以被理解为指由一个或多个氨基酸序列指定的任何生物分子。例如,术语蛋白可以被理解为指蛋白结构域(例如可以经历几乎独立于氨基酸序列的其余部分的蛋白折叠的氨基酸序列的一部分)或蛋白复合物(例如由多个相关联的氨基酸序列指定的)。
[0006]本文中所描述的方法和系统可以用于将 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置进行的用于训练结构预测神经网络的方法,所述结构预测神经网络被配置为通过处理网络输入来生成表征蛋白的结构的结构参数,所述网络输入包括所述蛋白的多序列比对的表示,所述方法包括:针对多种蛋白中的每一者获得所述蛋白的完整多序列比对;针对所述多种蛋白中的每一者生成表征来自所述蛋白的所述完整多序列比对的所述蛋白的结构的靶结构参数,包括:使用所述结构预测神经网络处理所述蛋白的所述完整多序列比对的表示以生成表征所述蛋白的结构的输出结构参数;以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数;针对所述多种蛋白中的每一者确定所述蛋白的简化多序列比对,包括从所述蛋白的所述完整多序列比对中去除或掩蔽数据;以及将所述结构预测神经网络训练为针对所述多种蛋白中的一者或多者处理所述蛋白的所述简化多序列比对的表示,以生成与所述蛋白的所述靶结构参数匹配的结构参数。2.根据权利要求1所述的方法,其中针对所述多种蛋白中的每一者,从所述蛋白的所述完整多序列比对中去除数据包括:从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列。3.根据权利要求2所述的方法,其中从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列包括:根据可能缩减参数值集合上的概率分布来从所述可能缩减参数值集合中对缩减参数值进行采样,其中所述缩减参数值指定要从所述蛋白的所述完整多序列比对中去除的氨基酸序列的数量;以及从所述蛋白的所述完整多序列比对中去除指定数量的氨基酸序列。4.根据权利要求3所述的方法,其中从所述蛋白的所述完整多序列比对中去除所述指定数量的氨基酸序列包括:随机选择要从所述蛋白的所述完整多序列比对中去除的所述氨基酸序列。5.根据任一前述权利要求所述的方法,其中针对所述多种蛋白中的每一者,从所述蛋白的所述完整多序列比对中掩蔽数据包括:掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性。6.根据权利要求5所述的方法,其中掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性包括:对要在所述蛋白的所述完整多序列比对中的所述氨基酸序列中掩蔽的所述位置进行随机采样。7.根据权利要求5至6中任一项所述的方法,所述方法还包括:将所述结构预测神经网络训练为针对所述多种蛋白中的每一者处理所述蛋白的所述简化多序列比对的所述表示,以生成预测所述蛋白的所述简化多序列比对中的每个掩蔽氨基酸的所述同一性的辅助输出。8.根据任一前述权利要求所述的方法,其中基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数包括:
将随机噪声值添加到所述蛋白的所述输出结构参数。9.根据任一前述权利要求所述的方法,其中所述结构预测神经网络被配置为处理网络输入,所述网络输入包括以下两者:(i)蛋白的多序列比对的表示;和(ii)所述蛋白的氨基酸序列的表示。10.根据任一前述权利要求所述的方法,所述方法还包括:针对所述多种蛋白中的每一者,确定所述蛋白的所述靶结构参数的置信度估计。11.根据权利要求10所述的方法,所述方法还包括:识别所述蛋白的所述靶结构参数的所述置信度估计不满足阈值的一种或多种蛋白;以及抑制基于所识别的蛋白来训练所述结构预测神经网络。12.根据权利要求10至11中任一项所述的方法,其中训练所述结构预测神经网络包括:确定目标函数的梯度,所述目标函数针对所述多种蛋白中的一者或多者测量(i)由所述结构预测神经网络通过处理所述蛋白的所述简化多序列比对的所述表示而生成的所述结构参数与(ii)所述蛋白的所述靶结构参数之间的误差,其中所述误差由所述蛋白的所述靶结构参数的所述置信度估计的函数缩放。13.根据权利要求10至12中任一项所述的方法,其中针对所述多种蛋白中的每一者:通过处理所述蛋白的所述完整多序列比对的所述表示来生成所述蛋白的所述靶结构参数的所述置信度估计作为所述结构预测神经网络的辅助输出;其中所述蛋白的所述靶结构参数的所述置信度估计定义(i)由所述结构预测神经网络通过处理所述蛋白的所述完整多序列比对生成的所述输出结构参数与(ii)表征所述蛋白的基础实况结构的基础实况结构参数之间的误差的估计。14.根据任一前述权利要求所述的方法,所述方法还包括:将所述结构预测神经网络训练为针对一种或多种其他蛋白处理所述其他蛋白的多序列比对的表示,以生成与所述其他蛋白的基础实况结构参数匹配的结构参数。15.根据权利要求14所述的方法,其中通过物理实验确定所述其他蛋白的所述基础实况结构参数。16.一种由一个或多个数据处理装置进行的方法,所述方法包括:训练教师结构预测神经网络,所述教师结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数,所述输入(i)包括所述蛋白的氨基酸序列的表示;和(ii)包括所述蛋白的多序列比对的表示;以及训练学生结构预测神经网络,所述学生结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数,所述输入(i)包括所述蛋白的氨基酸序列的表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。