神经网络的训练方法和预测蛋白质结构的方法技术

技术编号:37714894 阅读:25 留言:0更新日期:2023-06-02 00:10
本公开涉及神经网络的训练方法和预测蛋白质结构的方法,具体涉及蛋白质结构预测技术领域。神经网络的训练方法包括:获取具有物理相互作用的第一蛋白质链和第二蛋白质链;将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;将第一掩码蛋白质链和第二蛋白质链输入神经网络,以生成与第一掩码蛋白质链和第二蛋白质链相关联的第一注意力矩阵;基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征;基于第一目标特征,确定第一预测结果,第一预测结果表征对第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。参数。参数。

【技术实现步骤摘要】
神经网络的训练方法和预测蛋白质结构的方法


[0001]本公开涉及蛋白质结构预测
,具体涉及一种用于处理蛋白质链对的神经网络的训练方法、利用神经网络预测蛋白质结构的方法、用于处理蛋白质链对的神经网络的训练装置、利用神经网络预测蛋白质结构的装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]蛋白质是生命所必需的物质之一,理解蛋白质的结构可以帮助我们从机制的角度理解其功能,从而有助于后续的靶点研究和药物开发。通过传统实验方法确定蛋白质结构需要数月甚至数年的艰苦努力,这大大降低了研发效率。
[0003]基于深度学习的计算方法的出现,使快速、大规模获取未知蛋白质结构成为可能。其中,神经网络应用于结构预测已有很长的历史,其有效地利用了计算机视觉系统的快速改进,将蛋白质结构预测问题处理为将进化耦合的“图像”转换为蛋白质距离矩阵的“图像”,然后将距离预测集成到一个启发式系统中,从而进行3D坐标预测(Nature.2020;577:706

710)。但这些方法的准确性较差,不能与传统的结构预测方法相媲美(本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于处理蛋白质链对的神经网络的训练方法,包括:获取具有物理相互作用的第一蛋白质链和第二蛋白质链;将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;将所述第一掩码蛋白质链和所述第二蛋白质链输入所述神经网络,以使所述神经网络执行包括以下各项的操作:生成与所述第一掩码蛋白质链和所述第二蛋白质链相关联的第一注意力矩阵,所述第一注意力矩阵描述所述第一掩码蛋白质链中的氨基酸与所述第二蛋白质链中的氨基酸之间的隐含关系;基于所述第一注意力矩阵,确定与所述第一掩码蛋白质链对应的第一目标特征;和基于所述第一目标特征,确定第一预测结果,所述第一预测结果表征对所述第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及基于所述第一预测结果和所述第一蛋白质链中被掩码的至少一部分氨基酸,调整所述神经网络的参数。2.根据权利要求1所述的方法,其中,所述神经网络包括第一编码子网络、第二编码子网络、以及注意力子网络,其中,生成与所述第一掩码蛋白质链和所述第二蛋白质链相关联的第一注意力矩阵包括:利用所述第一编码子网络对所述第一掩码蛋白质链进行编码,以得到第一编码特征,所述第一编码特征包括多个第一编码子特征,所述多个第一编码子特征包括与所述第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸编码特征和与所述第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个掩码特征,所述至少一个掩码特征隐藏被掩码的所述至少一部分氨基酸的信息;利用所述第二编码子网络对所述第二蛋白质链进行编码,以得到第二编码特征,所述第二编码特征包括多个第二编码子特征,所述多个第二编码子特征包括与所述第二蛋白质链中的多个氨基酸对应的多个氨基酸编码特征;以及利用所述注意力子网络对所述第一编码特征和所述第二编码特征进行处理,以得到所述第一注意力矩阵,所述第一注意力矩阵包括所述多个第一编码子特征中的每一个第一编码子特征对于所述多个第二编码子特征中的每一个第二编码子特征的注意力得分。3.根据权利要求2所述的方法,其中,所述第一目标特征包括与所述多个第一编码子特征对应的多个第一目标子特征,所述多个第一目标子特征包括与所述第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸目标特征和与所述第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个氨基酸目标特征,其中,基于所述第一注意力矩阵,确定与所述第一掩码蛋白质链对应的第一目标特征包括:针对所述多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于所述多个第二编码子特征中的每一个第二编码子特征的注意力得分将所述多个第二编码子特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。4.根据权利要求3所述的方法,其中,所述注意力子网络基于交叉注意力机制,并且其中,利用所述注意力子网络对所述第一编码特征和所述第二编码特征进行处理,以得到所述第一注意力矩阵包括:
将所述多个第一编码子特征映射为多个查询特征;将所述多个第二编码子特征映射为多个键特征和多个值特征;以及通过计算所述多个查询特征和所述多个键特征的矩阵乘积,确定所述第一注意力矩阵,其中,针对所述多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于所述多个第二编码子特征中的每一个第二编码子特征的注意力得分将所述多个第二编码子特征进行融合,以得到与该第一编码子特征对应的第一目标子特征包括:针对所述多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于所述多个第二编码子特征中的每一个第二编码子特征的注意力得分将所述多个值特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。5.根据权利要求3所述的方法,其中,基于所述第一注意力矩阵,确定与所述第一掩码蛋白质链对应的第一目标特征还包括:将所述多个第一编码子特征映射为多个门控特征;以及利用所述多个门控特征对所述第一目标特征所包括的多个第一目标子特征进行更新,以得到更新后的第一目标特征,其中,基于所述第一目标特征,确定第一预测结果包括:基于更新后的第一目标特征,确定所述第一预测结果。6.根据权利要求2所述的方法,其中,所述第一编码子网络和所述第二编码子网络均为预训练的蛋白质语言模型。7.根据权利要求1

6中任一项所述的方法,还包括:将所述第二蛋白质链中的至少一部分氨基酸进行掩码,以得到第二掩码蛋白质链;将所述第二掩码蛋白质链和所述第一蛋白质链输入所述神经网络,以使所述神经网络执行包括以下各项的操作:生成与所述第一蛋白质链和所述第二掩码蛋白质链相关联的第二注意力矩阵;基于所述第二注意力矩阵,确定与所述第二掩码蛋白质链对应的第二目标特征;和基于所述第二目标特征,确定第二预测结果,所述第二预测结果表征对所述第二蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及基于所述第二预测结果和所述第二蛋白质链中被掩码的至少一部分氨基酸,调整所述神经网络的参数。8.一种利用神经网络预测蛋白质结构的方法,所述神经网络是利用根据权利要求1

7中任一项所述的方法进行训练而得到的,所述预测蛋白质结构的方法包括:确定目标蛋白质所包括的多条蛋白质链;将所述多条蛋白质链中的每两条蛋白质链输入所述神经网络,以得到与该两条蛋白质链相关联的注意力矩阵;基于所述多条蛋白质链中的每两条蛋白质链的注意力矩阵,构造所述目标蛋白质的氨基酸对表示矩阵,所述氨基酸对表示矩阵表征所述目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间的隐含关系;获取所述目标蛋白质的目标特征,所述目标特征表征所述目标蛋白质所包括的多个氨基酸;以及
基于所述目标蛋白质的氨基酸对表示矩阵和所述目标特征,确定所述目标蛋白质的蛋白质结构。9.根据权利要求8所述的方法,其中,基于所述目标蛋白质的氨基酸对表示矩阵和所述目标特征,确定所述目标蛋白质的蛋白质结构包括:确定所述目标蛋白质所包括的多个氨基酸各自的初始化骨架结构;将所述氨基酸对表示矩阵、所述目标特征、以及所述多个氨基酸各自的初始化骨架结构输入经训练的蛋白质结构预测模型,以使所述蛋白质结构预测模型执行包括以下各项的操作:基于所述氨基酸对表示矩阵、所述目标特征、以及所述多个氨基酸各自的初始化骨架结构,生成与所述多个氨基酸各自对应的骨架结构更新信息;针对所述多个氨基酸中的每一个氨基酸,利用与该氨基酸对应的骨架结构更新信息更新该氨基酸的初始化骨架结构,以得到与该氨基酸对应的目标骨架结构,其中,与该氨基酸对应的目标骨架结构描述该氨基酸相对于所述多个氨基酸形成的氨基酸序列中前一氨基酸的空间关系;和基于所述多个氨基酸各自的目标骨架结构,确定所述多个氨基酸在所述氨基酸序列中各自的相对空间位置。10.根据权利要求8所述的方法,还包括:由所述神经网络从所述多条蛋白质链中的每两条蛋白质链生成该两条蛋白质链各自的蛋白质链特征,其中,获取所述目标蛋白质的目标特征包括:将所述多条蛋白质链各自的蛋白质链特征进行融合,以得到所述目标蛋白质的目标特征。11.一种用于处理蛋白质链对的神经网络的训练装置,包括:第一获取单元,被配置为获取具有物理相互作用的第一蛋白质链和第二蛋白质链;第一掩码单元,被配置为将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;第一处理单元,被配置为将所述第一掩码蛋白质链和所述第二蛋白质链输入所述神经网络,所述第一处理单元包括:第一生成子单元,被配置为生成与所述第一掩码蛋白质链和所述第二蛋白质链相关联的第一注意力...

【专利技术属性】
技术研发人员:孙逸武罗玉杰李辉宋乐
申请(专利权)人:百图生科北京智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1